データプレパレーションの基本的な手順と主な作業内容についてご説明します。
データプレパレーション手順
データプレパレーションは、基本的に以下の手順で行います。
データプレパレーションの主な作業内容
データプレパレーションの主な作業内容を挙げていきます。
次に挙げる内容以外にも多くの作業内容はありますが、2018年5月時点ですべてを自動的に行うツールは存在しません。
一部はツールややプログラミングによりにより、自動化できる部分もありますが、それでも、人が何らかの作業が必要となり、データを活用する上で非常に工数がかかっています。
- データ収集
- 使用ファイル確定
- 文字コード変換
- データ型統一
- 読み取り形式変換
- 全半角統一
- 欠損値補完
- 異常値補正
- 重複排除
- 表記ゆれ
- データ結合:横
- データ結合:縦
- 単位
- 列構造調整(分割・結合)
- 行列構造調整
- グループ化
社内基幹システム、CRM、SFAなどの業務システムや個人パソコンの中にあるエクセルなど様々なところに存在し、その中から、必要なデータを収集します。定期的に更新されるデータは、データの収集方法を担当部署と調整することで、以降の作業が不要となります。
データがファイル形式で保存されている場合、移動、変更が容易であるため、同じようなデータが複数存在する場合があります。その場合には、データを精査し、使用ファイルを確定します。
csv、JSON、xmlなどのテキストデータの中には、Shift-JIS、UTF-8など様々な文字コードで記述されている場合がありますので、データ加工ツールで読み取れる文字コードに変換します。
異なるデータ型で管理されている場合は、データ型を統一します。
例:日付型:2010/10/10:と文字列型:20101010
一般的なデータ加工ツールは、1行目に項目名、2行目以降にデータを入力する形式のものしか読み取りができません。エクセルデータなどの場合、体裁調整のため、1行目に項目が入っていないものがあり、項目名を1行目にするなど読み取り可能形式への加工が必要です。
非構造化データの構造化
xml、JSONなどの非構造化データを集計、分析が可能な構造化を行います。
全角表記、半角表記が混在する場合には統一します。
表記ルール統一
会社名を「株式会社●●」「(株)●●」といったような形で表記ルールが異なっている場合は、統一します。
センサーデータのデータが取れていない場合など、欠損値がある場合には、一定のルールを決めて補完します。
データの範囲が決まっているのにもかかわらずその範囲外の値であったり、他のデータと比べて極端にかけ離れている値がある場合には、一定のルールを決めて補正値を入力します。
重複データが存在する場合には、重複データを削除します。
「サーバー」と「サーバ」といったような表記ゆれがあるものは統一します。
トランザクションデータとマスターデータを結合し、集計しやすい形に結合します。
複数テーブルに存在するデータを1テーブルにまとめます。同じ意味を持つものを同じ列で結合するようにします。片側だけに存在する列は、残すか削除するかの判断が必要です。
単位が異なるデータを結合する際に加工が必要です。
例: 1,000(kg)と1(t)、1,000,000(円)と1(百万円)
同じ意味を持つデータでも1列で管理している場合と、複数列で管理している場合があります。活用目的により、列を分割・結合し合わせる処理を行います。
例:住所を1列もしくは4列(都道府県、市区町村、番地、マンション名)で管理している
一般的に、データの集計を行うためには、1行1列目から対象となるデータを用意する必要がありますが、特に、エクセルデータでは、その形式になっておらず、行列構造を調整する必要があります。
集計、分析をより分かりやすくるためにグループ化を行います。例:都道府県名から地方別にグループ分けする、誕生日から10歳ごとの年代グループ化をする
データプレパレーションの手順、主な作業内容に関する簡単な説明でしたが、いかがでしたでしょうか。
「datapreparation.jp」では、データプレパレーションを中心に様々な、データ操作、加工、活用などの記事を作成しています。
よければ、他の記事もご覧ください。
DataPreparation.jp(データプレパレーション.jp)
https://datapreparation.jp
記事作成日:2018年5月7日