金曜日の午後4時。あと1時間で週報の数字をまとめて、上司に報告しなければならない。
溜まったメールを捌き、チャットでの急な問い合わせに答え、ようやく重い腰を上げて「今週の売上集計用Excel」を開いた。
「……はぁ」
思わず、ため息が漏れる。
各拠点から送られてきたデータが、まるでバラバラのパズルのようだ。
「株式会社ABC」と「(株)ABC」、「ABC商事」、「ABC Co., Ltd.」。
これらはすべて同じ会社を指しているはずなのに、Excel上では別々の行として扱われ、集計結果はデタラメな数字を叩き出している。
日付は日付で、「2023/10/01」と「R5.10.1」が混在。
半角と全角、スペースの有無。これら一つひとつを、マニュアル操作で「置換」し、手作業で修正していく作業。
分析や戦略を考えるための時間は、いつの間にか、この「ゴミを掃除する作業」に食いつぶされていく。
これこそが、多くの現場で静かに、しかし確実に生産性を削り続けている「データクレンジング」という名の、最も脳に響かない、そして最も報われない労働である。
「データさえ綺麗なら、すぐに分析できるのに」
現場のリーダーや管理職が、口を揃えて言う言葉だ。しかし、現実はそう甘くない。
ビジネスの現場で手に入るデータは、教科書のような整ったものではない。多種多様な人間が、多種多様なデバイスを使って、多種多様なルール(あるいはルールの欠如)のもとで入力したものだからだ。
具体的に、どのような「汚れ」が私たちの作業を阻むのか。よくあるパターンを整理してみよう。
| 汚れの種類 | 具体的な例 | 集計への影響 |
|---|---|---|
| 表記揺れ | 株式会社、(株)、㈱、Co., Ltd. | 同一組織が別々に集計される |
| 文字種の違い | ABC(全角)、ABC(半角) | VLOOKUPなどの関数が一致しない |
| 表記の不一致 | 山田太郎、山田 太郎、山田 太郎(スペースあり) | 名前での照合ができない |
| 日付の形式ミス | 2023年10月1日、23/10/01、R5.10.1 | 日付順の並び替えや期間集計が壊れる |
| 入力ミス・ゴミ | 1,000円、1000、1000円(文字混じり) | 数値計算ができずエラーになる |
これらの「汚れ」は、一つひとつは些細なものだ。しかし、数千行、数万行のデータとなると、その影響は致命的になる。
「とりあえず、見た目だけ整えておいたよ」と報告される集計表。その裏側で、誰かが必死に「置換」ボタンを連打し、目視で「これは同じ会社だな」と判断を下している。このプロセスには、高度な思考は必要ない。ただ、集中力と時間、そして「間違えたらどうしよう」という微かな不安だけを消費する。
この作業は、本来の業務(データから何が言えるかを考えること)とは無関係な、付加価値を生まない「作業」である。
なぜ、これほどまでにデータは汚れるのか。それは、現場の人間が不注意だからではない。システムや運用に「自由度」がありすぎるからだ。
主な原因は、以下の3点に集約される。
最も多い原因は、Excelの入力セルを「自由入力」にしていることだ。
「名前を入れてください」「会社名を入れてください」と指示されて、何をどう入力するかは個人の裁量に任される。すると、スマホで打った全角文字、PCの半角文字、あるいはその場の思いつきによる略称が入り混じるのは、ある意味で自然な結果と言える。
「会社名は株式会社から始めてください」というルールがあったとしても、それがマニュアルに明記されていなければ、誰も守らない。あるいは、マニュアルがあっても、現場の忙しさの中では「多少違っても意味は通じるだろう」という妥協が生まれる。
営業部はAという形式で、経理部はBという形式で、物流部はCという形式でデータを管理している。それぞれの部署にとっては「正しい形式」であっても、それらを統合しようとした瞬間に、巨大な「表記揺れ」の塊へと変貌する。
結局のところ、データが汚れるのは、「入力の瞬間に、正しさを強制する仕組みが働いていないから」である。
しかし、今さら入力ルールを厳格に決めるのは難しい。現場に「全角のみで入力しろ」などと強制すれば、入力スピードが落ち、新たな不満が生まれるからだ。
そこで必要になるのが、「汚いまま入力させ、後から一括で綺麗にする」という逆転の発想である。
これまでの「データ掃除」は、主にExcelの関数や、VLOOKUP、あるいは単純な「置換」で行われてきた。これらは「決まったルール」には強いが、「曖昧なもの」には極めて弱い。
例えば、「株式会社ABC」を「ABC」に置換するルールを作れば、次は「(株)ABC」が出てきたときにまた対応しなければならない。この「ルールを作る作業」自体が、また新たなコストになるのだ。
ここで登場するのが、AI(特にChatGPTなどの大規模言語モデル)である。AIを活用することで、これまでのIT技術では困難だった「意味の理解に基づく修正」が可能になる。
AIの強みは、文字列を単なる記号の羅列ではなく、「意味を持つ言葉」として捉える点にある。
ただし、ここで重要なのは「AIは魔法の杖ではない」ということだ。AI活用において、私たちは以下の「境界線」を理解しておく必要がある。
| 項目 | AIが得意なこと(丸投げしてよい) | AIが苦手・注意すべきこと(人間が確認すべき) |
|---|---|---|
| 作業内容 | 膨大なリストの形式統一、表記揺れの整理 | 根拠のないデータの捏造、数値の計算 |
| 判断基準 | 「これらは同じものを指していますか?」という問い | 「この数字は正しいですか?」という問い |
| リスク | 誤った変換(ハルシネーション) | 誤った計算や、存在しないデータの生成 |
AIに任せるべきは、「大量の、似たような、パターン化できない揺らぎを、一つの型に揃える作業」である。一方で、その変換結果が「ビジネスの正解」と合致しているかどうかの最終確認は、人間の役割として残る。
目標は「AIにすべてを任せて、人間は一切見ない」ことではない。「人間が、目視で一つひとつチェックする苦行を、AIが整理したリストをサッと確認するだけの作業に変える」ことだ。これだけで、作業時間は劇的に、かつ確実に減らせる。
「AIでデータクレンジングをしましょう」と言われても、エンジニアではない事務職や管理職が、いきなりPythonのコードを書いたり、複雑なシステムを導入したりするのは無理な話だ。
明日から、あるいは今この瞬間から、あなたの業務を少しだけ楽にするための「現実的な一手」を3つ提案する。
もし、Excelの列が汚くて困っているなら、その範囲をコピーしてChatGPTに貼り付けてみよう。そして、こう指示するのだ。
> 「以下のリストは会社名のリストです。表記がバラバラなので、『株式会社〇〇』という形式に統一してください。また、全角英数字は半角に直してください。出力は、元のリストと同じ順番で、修正後のリストだけを提示してください。」
これだけで、これまで30分かけていた「置換」作業が、数秒で終わる。修正されたリストをExcelに貼り付け直すだけだ。これなら、プログラミングの知識は一切不要である。
後から掃除するコストを減らすために、入力側に少しだけ手を加える。
Excelの「データの入力規則」機能を使ったことはあるだろうか。
自由入力を許すのではなく、「ドロップダウンリスト(選択式)」にする。これだけで、表記揺れの8割は防げる。
「全部を選択式にするのは大変だ」と思うかもしれない。だが、頻繁に使う項目(部署名、拠点名、取引先区分など)だけでも選択式にする。この「小さなガードレール」が、将来のあなた自身の時間を守ることになる。
もし、AIを使ってデータを綺麗にする手法を見つけたら、それを自分だけのメモに留めず、チームの「プロンプト(AIへの指示文)」として共有してしまおう。
「このデータが来たら、この指示文をChatGPTに投げれば綺麗になるよ」という共有は、マニュアルを作るよりも遥かに簡単で、かつ即効性がある。属人的な「Excel職人の技」を、チームの「AI活用術」へと昇華させるのだ。
データが汚いことに絶望する必要はない。
データが汚いのは、あなたが真面目に仕事をしている証拠であり、現場が動いている証拠だ。
ただ、その汚れを掃除するために、あなたの貴重な脳のリソースを使い果たしてはいけない。
「掃除はAIに、判断は人間に」。
この役割分担を意識するだけで、あなたのデスクに広がるExcelの地獄は、少しずつ、しかし確実に、コントロール可能なものへと変わっていくはずだ。