「ChatGPTにExcelのデータを売上の集計させたら、完全に間違った金額が返ってきた」――そんな経験を基に、「AIは結合セルや複雑な表が苦手」という話を聞いたことのある方は多いと思います。私たちもしばらくは、そう考えていました。
ところが、現場で自己流に作り込まれたExcel――いわゆる「神Excel」(紙への印刷を前提に、セルの結合や色分けで作り込んだエクセルデータ)を用意して、最新の生成AIに読ませてみたところ、結果はまるで違いました。この記事では、その検証の一部始終を共有します。あわせて、検証を通じて見えてきた「AIはAIの実力を大きく過小評価する傾向がある」というテーマについても触れたいと思います。
最初に結論をお伝えすると、当社が仕込んだ「トラップ」の数々を、ChatGPTはなんなく見抜いてきました。そして、たった一つだけ答えが食い違った質問が、生成AIを使用するうえで一番重要なことを教えてくれました。それは「AIが賢くても、内容に矛盾が内包されているなら正しい答えは出せない」という事実です。

だんだんと意地悪にしていった検証
検証はまず軽い「汚れ」から始めました。結合セルを部分的に使った表をChatGPTに読ませて集計させると、なんなく正しい集計を返してきました。そこで私たちは、データ内の仕掛けの数を段々と増やしていきました。最終的にたどり着いたのが、冒頭でお見せした「長年の運用でぐちゃぐちゃになった現場でよく見かけるエクセルデータ」です。
このエクセルには中小企業の「あるある」をたくさん盛り込みました。
セルを方眼紙のように細かく区切って罫線で作表
左端の「計上月」は表全体を縦にぶち抜いて一つのセルに結合
日付は「2026/4/3」「4月8日」「R8.4.15」のように行ごとに書式がばらばら
単価や金額は、数値の行と「45,000円」という文字列の行が混在
得意先名も激しく揺れていて、「(株)あおぞら商事」と「あおぞら商事」、半角カナの「ヒカリ物産」と「光物産株式会社」が同じ表に並びます。
状態管理はさらに混沌としていて、未入金や保留をセルの色で表す行、「〇△×済」のマークで表す行、コメントで補足する行が、何の秩序もなく入り乱れています。取り消し線を引いただけのキャンセル行や、3月・5月の取引が4月度の表に紛れ込んでいる箇所、そして末尾には実際とは合わない手動で計算した「総合計」まで盛り込みました。

どんな質問を投げたのか?
このエクセルデータに対して、私たちは事務の現場でよくある質問をいくつかぶつけてみました。
四月の売上はいくらか?
未入金の取引と合計額はどれか?
得意先ごとの売上はいくらか?
キャンセルされた取引はあるか?
末尾の手打ち総合計は正しいか?
以上の5つです。いずれも、人間が手作業でやれば集計ミスを起こしやすい、意地の悪い質問ばかりです。
結果:ほとんどの罠をAIは見抜いた
結論から言えば、ChatGPTは私たちが仕込んだ仕掛けのほとんどを理論整然と処理しました。
四月の売上を尋ねると、AIは三月・五月分の紛れ込みをきちんと除外し、文字列で入力された金額も拾い、キャンセル行を計算から外したうえで、正しい合計を返してきました。手作業なら確実に間違えるところを、淡々とより分けてみせたのです。

得意先ごとの集計では、「(株)あおぞら商事」と「あおぞら商事」、半角カナの「ヒカリ物産」と「光物産株式会社」を、同じ会社の可能性が高いものとしてまとめ上げました。表記ゆれの統一は、人間でも神経を使う難しい作業です。

さらに驚いたのは、取り消し線だけで表現したキャンセル行を、AIが「金額は入っているが取り消し線が引かれているので除外すべき」と正しく判断したことです。文字としては読み取れない、見た目だけの情報まで拾っています。
極めつけに表の最後の行の手動で計算した総合計についても、明細から計算し直したうえで「実際の合計と一致しません」と食い違いを指摘してきました。人間が入力した数字を、鵜呑みにせず疑ってみせたわけです。

さらにChatGPTは、こちらが頼んでもいないのに「このファイルは意図的にぐちゃぐちゃに作られており、別シートの重複や月の混在、表記ゆれがあるため誤集計になりやすい」と、検証の意図そのものを言い当ててきました。もっとも、こちらがファイル名に「ぐちゃぐちゃ版」と付けていたので、その名前から察した可能性もあります。
AIはファイルの中身だけでなく、ファイル名も手がかりにして読んでいる、ということになります。
ただ一つ、答えが割れた問い――未入金はいくらか
これだけ正確にエクセルデータの趣旨を見事に理解したChatGPTでしたが、たった一つだけ私たちが想定したものと違う答えを返した質問があります。それが「未入金の合計額」です。
私たちは「赤いセルが未入金」の想定でデータを入力しました。一方でChatGPTは、色ではなく「〇△×済」のマークを手がかりに、未入金を判定してきました。その結果、こちらの想定が約80万円だったのに対し、ChatGPTの答えは約200万円。金額に倍以上の違いが出てしまいました。
ここで大切なのは、これがChatGPTの計算ミスではないということです。ChatGPTの集計自体は、自分が選んだ基準の基で1円も間違っていません。問題はこのエクセルファイルにありました。実は、わたしたちが作ったこのファイルには「未入金の正解」が存在しなかったのです。
冷静に見返すと、ファイルは3重に矛盾していました。
タイトル下の注記には「赤=至急」と書いてあるのに、別シートの凡例には「赤=未入金」と書いてある。
赤いセルなのにマークは「〇」と色とマークが同じ行で食い違う箇所がある。
そもそも、どの色やマークが何を意味するのか、ファイル全体で統一されていない。
これでは、人間が見ても未入金がいくらかは確定できません。AIはその矛盾したファイルの中からひとつの一貫した基準を選択し、「この前提で集計しました」とはっきり明示したうえで、「別の基準でも集計できます」と代替案まで添えてきました。これは間違いなく曖昧なデータを処理する際の、最適解と言える振る舞いです。

検証のまとめ
ここまでの検証結果を一覧で振り返ってみます。当社が仕込んだ罠と、それに対するAIの回答を並べると、全体像がよく分かります。
| 仕込んだ罠 | 実際のAIの回答 |
|---|---|
| 結合セル・二段の見出し・方眼紙レイアウト | 惑わされず正しく集計した |
| 月の混在(三月・五月が四月度の表に紛れ込み) | 四月分だけを正しくより分けた |
| 文字列で入力された金額(「45,000円」など) | 数値として正しく拾った |
| 得意先名の表記ゆれ・半角カナ | 同一の会社としてまとめた |
| 取り消し線だけで示したキャンセル行 | 書式を読み取り、集計から除外した |
| 実際と合わない手打ちの総合計 | 計算し直して、食い違いを指摘した |
| 色とマークと凡例が矛盾した状態管理 | 計算は正確だが前提次第で答えが割れた |
最後の一行だけが、唯一すっきり決まらなかった項目です。そしてそれは、AIの問題ではなく、ファイルの作り方の問題でした。
Excelの整形はもう不要になったのか?
ここで多くの方が抱く疑問が、「AIでそこまで読めるなら、わざわざ表をきれいに整える必要はもうないのでは?」という点だと思います。
これについては、私たちの答えは「整形する理由は変わったものの、整形そのものは依然として必要」です。
少し前までは、Excelを整えるのは「AIが正しく読めるようにするため」でした。けれども今回の検証で、AIのためにExcelを整える必要性はほぼ無くなりました。AIはすでに多少作り込まれた表でも読めてしまいます。
それでもファイルの整形をおすすめするのは、整形する理由が人間と業務プロセスの側に移ったからです。
簡単にチェックできるなら間違いに気づける
今回の検証が示したようにAIが返してくる答えは高い確率で正解です。とはいえ、まだ100パーセントではありません。ここには人間の側ができることの余地があります。
表が整っていれば、人間が目視やフィルタで簡単にチェックする事ができます。整っていないままだと、AIの答えが合っているのか間違っているのかを確かめる手段がなく、誤った数字に気づけない恐れがあります。
色やマーク頼みの管理は答えそのものを壊す
今回、最も象徴的だったのが未入金の集計でした。色とマークと凡例がばらばらだったために、AIがどれだけ正確に計算しても、答えが約80万円と約200万円に割れてしまったのです。これはAIの限界ではありません。データの一貫性が失われると、AIでも人間でも、唯一の正解を出せなくなるという話です。
状態を色だけ、マークだけで表す運用は、その色やマークのルールを知っている人がいる前提でないと機能しません。担当者が辞めた瞬間に意味は失われ、引き継いだ人間には判断できなくなります。未入金なら未入金と、一つの列に文字で書いておく。それだけで、AIにとっても人間にとっても、正解がひとつに定まりやすくなります。
同じ作業を繰り返すなら整った表のほうが自動化しやすい
一度きりの集計なら、整っていない表をAIに読ませて終わりでも構いません。けれども、毎月・毎週と繰り返す定型業務となると話は変わってきます。整った表は、繰り返しの処理や自動化がしやすく、結果として作業全体が楽になります。
整形のその先へ――集計も自動化もAIに任せる
ここまでお読みいただくと、整形は「AIのため」ではなく「自分たちの安心と効率のため」の作業だということがお分かりいただけたかと思います。
そして、表が整いさえすれば、その先の作業はどんどんAIに任せられます。集計やグラフ化を毎回手作業でやる必要はありません。以下の記事では、整えたデータをAIに集計させる具体的な手順を紹介しています。
さらに、集計作業そのものを自動化したい場合は、以下の記事が参考になります。
「整える→集計する→自動化する」という順で読み進めていただくと、Excel作業がどこまで省けるのかが具体的に見えてくるはずです。
検証から見えた、もう一つの話――AIは自分の実力を見誤る
最後に、今回の検証で私たちが最も面白いと感じた点に触れさせてください。それは、「AIは自分や他の生成AIの能力を過少評価することがある」という事実です。
今回の検証で、私たちは「ここまでぐちゃぐちゃな表なら、さすがに読めないはずだ」と事前に予想していました。ところが、その予想は次々と外れました。これは、AIに関する情報が古いものを多く含んでいることが一因として考えられます。
「AIはExcelが苦手」という解説記事は数年前のものが大量に残っている一方で、モデルの実際の性能はその後も更新され続けています。過去の「できなかった話」のほうが情報量として多いと、AIは過去の評価を正しい評価と捉えてしまいます。
その一方で、AIの作り手である企業は、AIの能力を実際よりも大きく語りたがります。たとえば2026年6月、Anthropic社は「自社に取り込むコードの八割以上を、すでにAI自身が書いている」と公表し世間に衝撃を与えました。これは将来のリスクへの警鐘として提示されたものですが、上場や規制をめぐる思惑が絡んでいるのではないか、という批判も出ています。
要するに、AIの実力をめぐる評判は、低く語られることもあれば、高く語られることもある。作り手も、使い手も、批判する側も、それぞれの立場によって見え方は大きく変わります。だからこそ、誰かの評判をそのまま信じるのではなく、自分が用意したファイルを使って自分で検証してみることが、何より確かな判断材料になります。
まとめ
最新のAIは、結合セルも、二段の見出しも、月の混在も、表記ゆれも、さらには取り消し線という見た目だけの情報まで、かなりの精度で読み取れるようになっていました。「AIはExcelが苦手」という前提は、もはや過去のものになりつつあります。
それでも、表を整える作業には意味があります。理由が「AIに読ませるため」から「自分たちが簡単に計算でき、引き継げて、自動化しやすくするため」に変わっただけです。今回いちばんはっきりしたのは、データの記録の仕方がばらばらだと、AIがどれだけ賢くても答えが定まらない、ということでした。
そして表を整えた先には、集計もその作業自体もAIに任せる道が開けています。まずは一度、ご自身の会社の実際のExcelで、今のAIがどこまでやれるのかを試してみてください。評判を確かめる一番の方法は、自分が用意したデータで実際に動かしてみることです。




コメント