一般的にデータ活用をする場合にはあらかじめ、活用がすぐにでもできるようになっている場合がほとんどです。
しかし、実際のデータは、不規則あったり、整合性が合わなかったり、すぐにデータ活用ができる状態にあることはほぼありません。
実際には、システム担当者やデータサイエンティストなどがあらかじめ、データを整形し、ピポットテーブルやBIツールで加工できる状態で提供されています。
データプレパレーションは、実際、自身で作業を行って初めて、たいへんさがわかるのですが、以下の話は、とある会社のフィクションです。

とある会社のフィクション


某日 木曜日 05:00 早朝 X社オフィス
30分かけて徒歩にて出社
(家賃は高いが、会社の近くに自宅を借りている。)
本日13:00からのA社分析定例会に向けて、
昨日の夕方実行したSQLの結果確認。

問題なく出力されている。
早速、出力結果を確認し、
Excelに貼り付けると同時に、データの要点を記入
プレゼンシート作成。
なんとか、定例会には間に合う。

某日 木曜日 13:30 A社会議室
今回の分析結果を展開
担当部長から指摘を受ける。
・A要因について、「平均」と「平均の平均」で違いがあるのはどういうことだろうか?
確認してほしい。
・A要因について、a水準のほうが平均が高いが、統計的誤差の範囲と出ている。
しかし、売上の0.1%の違いが金額ではかなり大きい。
慎重に検討してほしい。
・顧客数について、A社社内情報システムの算出した人数とX社の算出した人数の差が出ている。
これはどういうことだろうか?きちっとチェックしてほしい。
・そもそも、この分析で何が言いたいのかわからない。
・そもそも、A要因とB要因は顧客の属性であり変えられない。
変えられない(統制できない)要因について、
どう施策を打つのかを考えてほしい。

某日 木曜日 17:00 直帰 帰宅

某日 木曜日 18:00 自宅にて
Slackに、上司から、
明日の朝までにB社の500万件の顧客データを抽出してほしいとの依頼が入る。
明日のプレゼンに使うらしい。
経験上、おそらく8時間かかる予定。
同時に、お客様用システムからの抜き出しになるため、監視も必要である。
(セキュリティの関係で社外での作業はできない。)


某日 金曜日 01:00 X社オフィス
終電にて出社
データ抽出作業を行う。
同時に社内向けのPythonを使った分析のための研修会の資料を作成する。

某日 金曜日 05:00 X社オフィス
社内向け資料の作成が終わる。(来週火曜日分)
C社から、プレファレンスについて、説明会をしてほしいとの依頼あり。
資料を作成する。

某日 金曜日 09:00 X社オフィス
X社コンサルティング部 部長より呼び出しがある。
D社より、部長が登壇するカンファレンスの資料を前倒しでほしいとの依頼あり。
分析資料作成を月曜日までにほしいのと事であった。その場で、休日出社申請。

某日 金曜日 09:10 X社オフィス
システム部からの内線ありとのメモがあり。
システム部に向かう。
システム部では、
昨日のB社の抽出作業で危うくシステムが止まるところだったので、
事前に相談してほしいと注意を受ける。

某日 金曜日 09:20 X社オフィス
同僚bがインフルエンザで出社できないことを、営業から連絡を受ける。
E社の月初の月次レポートの提出期限が月曜日とのこと。
資料はExcelのシート5枚、クロス表が12個、グラフが12個と煩雑なものであり、
修正作業で6時間が予想された。
抽出用のSQLについても、2つあり、各々の処理時間が1時間程度かかるものであった。
取り急ぎ、SQLの変更ポイント記述し、SQLを実行する。

某日 金曜日 09:30 X社オフィス
F社用の資料を依頼していた新入社員cから問い合わせあり。
実行するだけで、クロス表を作成するSQLを渡していたが、
どうも、うまくいかないので見てほしいとのこと。
すぐに新入社員cの机にてSQLを確認したが、問題がない。
元データを確認したところ、データのありえない重複を確認。
システム部に確認をするように依頼。

某日 金曜日 12:00 X社会議室
G社のテキストマイニングのためのデータ抽出検討会に参加
自由記述文に関して、タグ付けをする基準を作成し、その上で、会議の参加者3人で判定をする内容
想定は1時間だったが、判定が難しく2時間ほどかかる。
誰もできないということで、その場で、指標とのロジスティック回帰の分析依頼を受ける。

某日 金曜日 14:00 X社オフィス
新入社員cに確認すると、システム部からは、F社の件コンサルティング部で対応してほしいとの回答だった。
早速、SQLを書き換え、新入社員に実行と資料作成を依頼する。
新入社員からきちっと教えて欲しいと言われたが、取り急ぎ自分で調べて欲しいと回答。

某日 金曜日 14:30 X社オフィス
上司帰社。500万件の顧客データについて、件数が異なることの指摘を受ける。
ネット広告の対象顧客抽出なので問題になるとこと。
本日中に簡単で良いので調査報告が欲しいとのこと。
早速、調査開始。
原因としては、ある1週間のデータにおいて、
会員番号が数値として処理されており、頭の0が消されていて、違う会員番号と認識されていた。
早速、報告書作成とともにシステム部に連絡。

某日 金曜日 16:30 X社オフィス
B社500万件顧客データに関して、システム部からの回答あり。
システム部で対応をすると3営業日かかるので、
来週のB社定例会も含めて、コンサルティング部で対応して欲しいとのこと。
早速、SQLを書き換えて、手元の抽出したデータを調整。
20:00までかかる予定。

某日 金曜日 17:00 X社オフィス
E社のSQLが終わっていたので、E社の月初・月次レポート作成開始。
本日中に終わらせたい。

某日 金曜日 17:30 X社オフィス
G社、ECサイト訪問履歴から顧客抽出のシステムにて、
顧客が抽出されないことを電話で指摘を受ける。
G社担当者様は、ログのデータ量が大きいこと(500G以上ある)を知っているので、
対応は急がないが、理由を確認してほしいとの依頼があった。
土日の広告はしないとのことだったので、今週の土日で確認をすることに。
システム部に緊急でG社ログの入っているクラウドサーバのメモリとSSDを拡張してもらう。

某日 金曜日 18:00 X社オフィス 人事部より内線あり
残業時間がすでに80時間を超えているとのことで、
このまま行くと、半強制的に休んでもらうことになるとの指摘を受ける。
どうにか、対応するように求められる。

某日 金曜日 20:00 X社オフィス
B社500万件顧客抽出データの処理終了
上司に引き渡す。
上司が帰宅、帰り際に、
「人事から聞いたが、君がなんの何をしているかわからない。」
「そこまで、仕事しなくてもよいのでは。早く帰ったら。」
と声をかけられる。

某日 金曜日 23:00 X社オフィス
E社月初・月次レポート終了、営業担当にメール。

某日 金曜日 24:00 X社オフィス
G社、ECサイトログデータから直接的に顧客IDを抽出するプログラム作成終了。
クラウドサーバにて、実行開始。しばらく状態を見ることに。

某日 土曜日 01:00 帰宅
A社向け、「平均」と「平均の平均」が異なる問題の資料作成完了。
G社プログラムが順調に動いていることを確認。
明日、夕方までかかることもわかり、帰宅する。

某日 土曜日 05:30 出社
D社、カンファレンス向け資料作成開始。
プレゼンシートで20枚ほど、分析項目も多岐にわたることが判明。
取り急ぎ分析のためのSQLを、作成テスト

某日 土曜日 09:00 X社オフィス
C社、カンファレンス向け分析用SQL作成終了
実行には2時間ほどかかる予定
その間に、G社ロジスティック回帰のR環境での実行とレポートを作成し、
営業担当にメール。

某日 土曜日 12:00 X社オフィス
G社ロジスティック回帰のレポート作成終了
C社カンファレンス用Excel資料とパワーポイント資料の作成に入る。

某日 土曜日 20:00 X社オフィス
C社カンファレンス用Excel資料とパワーポイント資料の作成終了。
部長にメール送付。
月曜日の部長の予定の中に、08:00〜10:00にて説明ための時間を入れる。
A社顧客数が異なる件の調査を開始

某日 土曜日 23:00 X社オフィス
A社、顧客数が異なる原因は、顧客IDの他に、顧客カードIDがあり、その関係がN対Nの関係になっていることが判明。
N対Nの関係を第4正規化するためのプログラムを作成を開始する。

某日 土曜日 01:00 X社オフィス
A社、顧客N対N名寄せ用プログラム作成終了。実行を行う。
G社向けECサイトログから顧客IDを抽出するプログラムを確認したところ、
クラウドサーバからの反応がない。
なんとか確認したところ、1TあったSSDがいっぱいになっていた。
一旦、プログラムを強制終了。途方に暮れる。

某日 土曜日 02:00 X社オフィス
A社名寄せプログラムは無事終了。顧客数はしっかり少なくなった。

取り急ぎ、転職サイトに登録。
最近、社内から外部へのwebログの監視を始めたはずだが、
きっと私が web logの調査するのだろうなあと考える。


以上、とある会社のデータ操作担当者にまつわる作り話でしたが、いかがでしたでしょうか。
「datapreparation.jp」では、データプレパレーションを中心に様々な、データ操作、加工、活用などの記事を作成しています。
よければ、他の記事もご覧ください。

DataPreparation.jp(データプレパレーション.jp)
https://datapreparation.jp


記事作成日:2018年5月1日

Copyright © 2018 dbE All rights reserved