ぼやき手帖

← 一覧に戻る

「データが汚すぎて使い物にならない」絶望。Excelの表記揺れをAIで一掃する技術

職場の非効率とAI活用 · 2026/6/11
ExcelデータクレンジングAIChatGPT表記揺れ業務改善
「データが汚すぎて使い物にならない」絶望。Excelの表記揺れをAIで一掃する技術

「データが汚すぎて使い物にならない」絶望。Excelの表記揺れをAIで一掃する技術

金曜日の午後4時。あと1時間で週報の数字をまとめて、上司に報告しなければならない。
溜まったメールを捌き、チャットでの急な問い合わせに答え、ようやく重い腰を上げて「今週の売上集計用Excel」を開いた。

「……はぁ」

思わず、ため息が漏れる。
各拠点から送られてきたデータが、まるでバラバラのパズルのようだ。
「株式会社ABC」と「(株)ABC」、「ABC商事」、「ABC Co., Ltd.」。
これらはすべて同じ会社を指しているはずなのに、Excel上では別々の行として扱われ、集計結果はデタラメな数字を叩き出している。

日付は日付で、「2023/10/01」と「R5.10.1」が混在。
半角と全角、スペースの有無。これら一つひとつを、マニュアル操作で「置換」し、手作業で修正していく作業。
分析や戦略を考えるための時間は、いつの間にか、この「ゴミを掃除する作業」に食いつぶされていく。

これこそが、多くの現場で静かに、しかし確実に生産性を削り続けている「データクレンジング」という名の、最も脳に響かない、そして最も報われない労働である。

1. 職場のあるある:集計の前に「掃除」という名の壁が立ちはだかる

「データさえ綺麗なら、すぐに分析できるのに」

現場のリーダーや管理職が、口を揃えて言う言葉だ。しかし、現実はそう甘くない。
ビジネスの現場で手に入るデータは、教科書のような整ったものではない。多種多様な人間が、多種多様なデバイスを使って、多種多様なルール(あるいはルールの欠如)のもとで入力したものだからだ。

具体的に、どのような「汚れ」が私たちの作業を阻むのか。よくあるパターンを整理してみよう。

汚れの種類具体的な例集計への影響
表記揺れ株式会社、(株)、㈱、Co., Ltd.同一組織が別々に集計される
文字種の違いABC(全角)、ABC(半角)VLOOKUPなどの関数が一致しない
表記の不一致山田太郎、山田 太郎、山田 太郎(スペースあり)名前での照合ができない
日付の形式ミス2023年10月1日、23/10/01、R5.10.1日付順の並び替えや期間集計が壊れる
入力ミス・ゴミ1,000円、1000、1000円(文字混じり)数値計算ができずエラーになる

これらの「汚れ」は、一つひとつは些細なものだ。しかし、数千行、数万行のデータとなると、その影響は致命的になる。

「とりあえず、見た目だけ整えておいたよ」と報告される集計表。その裏側で、誰かが必死に「置換」ボタンを連打し、目視で「これは同じ会社だな」と判断を下している。このプロセスには、高度な思考は必要ない。ただ、集中力と時間、そして「間違えたらどうしよう」という微かな不安だけを消費する。

この作業は、本来の業務(データから何が言えるかを考えること)とは無関係な、付加価値を生まない「作業」である。

2. なぜそれが起きるのか:自由度とルールのトレードオフ

なぜ、これほどまでにデータは汚れるのか。それは、現場の人間が不注意だからではない。システムや運用に「自由度」がありすぎるからだ。

主な原因は、以下の3点に集約される。

① 「自由入力」という名の放置

最も多い原因は、Excelの入力セルを「自由入力」にしていることだ。
「名前を入れてください」「会社名を入れてください」と指示されて、何をどう入力するかは個人の裁量に任される。すると、スマホで打った全角文字、PCの半角文字、あるいはその場の思いつきによる略称が入り混じるのは、ある意味で自然な結果と言える。

② 入力ルールの「言語化」の欠如

「会社名は株式会社から始めてください」というルールがあったとしても、それがマニュアルに明記されていなければ、誰も守らない。あるいは、マニュアルがあっても、現場の忙しさの中では「多少違っても意味は通じるだろう」という妥協が生まれる。

③ データの分断(サイロ化)

営業部はAという形式で、経理部はBという形式で、物流部はCという形式でデータを管理している。それぞれの部署にとっては「正しい形式」であっても、それらを統合しようとした瞬間に、巨大な「表記揺れ」の塊へと変貌する。

結局のところ、データが汚れるのは、「入力の瞬間に、正しさを強制する仕組みが働いていないから」である。

しかし、今さら入力ルールを厳格に決めるのは難しい。現場に「全角のみで入力しろ」などと強制すれば、入力スピードが落ち、新たな不満が生まれるからだ。
そこで必要になるのが、「汚いまま入力させ、後から一括で綺麗にする」という逆転の発想である。

3. AIやITでどこまで減らせるか:ルール化できない「揺らぎ」への対抗策

これまでの「データ掃除」は、主にExcelの関数や、VLOOKUP、あるいは単純な「置換」で行われてきた。これらは「決まったルール」には強いが、「曖昧なもの」には極めて弱い。

例えば、「株式会社ABC」を「ABC」に置換するルールを作れば、次は「(株)ABC」が出てきたときにまた対応しなければならない。この「ルールを作る作業」自体が、また新たなコストになるのだ。

ここで登場するのが、AI(特にChatGPTなどの大規模言語モデル)である。AIを活用することで、これまでのIT技術では困難だった「意味の理解に基づく修正」が可能になる。

AIができること:意味の「正規化」

AIの強みは、文字列を単なる記号の羅列ではなく、「意味を持つ言葉」として捉える点にある。

AIに任せられる範囲と、任せてはいけない範囲

ただし、ここで重要なのは「AIは魔法の杖ではない」ということだ。AI活用において、私たちは以下の「境界線」を理解しておく必要がある。

項目AIが得意なこと(丸投げしてよい)AIが苦手・注意すべきこと(人間が確認すべき)
作業内容膨大なリストの形式統一、表記揺れの整理根拠のないデータの捏造、数値の計算
判断基準「これらは同じものを指していますか?」という問い「この数字は正しいですか?」という問い
リスク誤った変換(ハルシネーション)誤った計算や、存在しないデータの生成

AIに任せるべきは、「大量の、似たような、パターン化できない揺らぎを、一つの型に揃える作業」である。一方で、その変換結果が「ビジネスの正解」と合致しているかどうかの最終確認は、人間の役割として残る。

目標は「AIにすべてを任せて、人間は一切見ない」ことではない。「人間が、目視で一つひとつチェックする苦行を、AIが整理したリストをサッと確認するだけの作業に変える」ことだ。これだけで、作業時間は劇的に、かつ確実に減らせる。

4. 明日やるなら何をするか:現実的な「一歩」の踏み出し方

「AIでデータクレンジングをしましょう」と言われても、エンジニアではない事務職や管理職が、いきなりPythonのコードを書いたり、複雑なシステムを導入したりするのは無理な話だ。

明日から、あるいは今この瞬間から、あなたの業務を少しだけ楽にするための「現実的な一手」を3つ提案する。

① ChatGPTを「優秀な下書き係」として使う

もし、Excelの列が汚くて困っているなら、その範囲をコピーしてChatGPTに貼り付けてみよう。そして、こう指示するのだ。

> 「以下のリストは会社名のリストです。表記がバラバラなので、『株式会社〇〇』という形式に統一してください。また、全角英数字は半角に直してください。出力は、元のリストと同じ順番で、修正後のリストだけを提示してください。」

これだけで、これまで30分かけていた「置換」作業が、数秒で終わる。修正されたリストをExcelに貼り付け直すだけだ。これなら、プログラミングの知識は一切不要である。

② 「データの入り口」に、小さなガードレールを設置する

後から掃除するコストを減らすために、入力側に少しだけ手を加える。
Excelの「データの入力規則」機能を使ったことはあるだろうか。
自由入力を許すのではなく、「ドロップダウンリスト(選択式)」にする。これだけで、表記揺れの8割は防げる。

「全部を選択式にするのは大変だ」と思うかもしれない。だが、頻繁に使う項目(部署名、拠点名、取引先区分など)だけでも選択式にする。この「小さなガードレール」が、将来のあなた自身の時間を守ることになる。

③ 「掃除のルール」を、手順書ではなく「プロンプト」として残す

もし、AIを使ってデータを綺麗にする手法を見つけたら、それを自分だけのメモに留めず、チームの「プロンプト(AIへの指示文)」として共有してしまおう。

「このデータが来たら、この指示文をChatGPTに投げれば綺麗になるよ」という共有は、マニュアルを作るよりも遥かに簡単で、かつ即効性がある。属人的な「Excel職人の技」を、チームの「AI活用術」へと昇華させるのだ。


データが汚いことに絶望する必要はない。
データが汚いのは、あなたが真面目に仕事をしている証拠であり、現場が動いている証拠だ。
ただ、その汚れを掃除するために、あなたの貴重な脳のリソースを使い果たしてはいけない。

「掃除はAIに、判断は人間に」。
この役割分担を意識するだけで、あなたのデスクに広がるExcelの地獄は、少しずつ、しかし確実に、コントロール可能なものへと変わっていくはずだ。