データプレパレーションの基本的な手順と主な作業内容についてご説明します。

データプレパレーション手順

データプレパレーションは、基本的に以下の手順で行います。

データプレパレーション手順

1.データ活用目的確認
データ活用目的により、必要となるデータが異なりますので、事前に確認します。
2.データ集約
必要なデータを収集し、データプレパレーションを実施するシステムに応じて、文字コード変換、データ型統一などを行います。
3.クレンジング
全半角統一、表記ルールと統一、欠損値補完、異常値補正などのデータクレンジングを行います。
4.データ加工
データ活用目的に応じて、データ結合、列構造調整、単位調整なデータ加工を行います。
5.データ活用
データプレパレーション完了後のデータで、集計、分析を行います。

データプレパレーションの主な作業内容

データプレパレーションの主な作業内容を挙げていきます。
次に挙げる内容以外にも多くの作業内容はありますが、2018年5月時点ですべてを自動的に行うツールは存在しません。
一部はツールややプログラミングによりにより、自動化できる部分もありますが、それでも、人が何らかの作業が必要となり、データを活用する上で非常に工数がかかっています。

  • データ収集
  • データプレパレーション データ収集社内基幹システム、CRM、SFAなどの業務システムや個人パソコンの中にあるエクセルなど様々なところに存在し、その中から、必要なデータを収集します。定期的に更新されるデータは、データの収集方法を担当部署と調整することで、以降の作業が不要となります。

  • 使用ファイル確定
  • データがファイル形式で保存されている場合、移動、変更が容易であるため、同じようなデータが複数存在する場合があります。その場合には、データを精査し、使用ファイルを確定します。

  • 文字コード変換
  • csv、JSON、xmlなどのテキストデータの中には、Shift-JIS、UTF-8など様々な文字コードで記述されている場合がありますので、データ加工ツールで読み取れる文字コードに変換します。
    データプレパレーション 文字コード変換

  • データ型統一
  • 異なるデータ型で管理されている場合は、データ型を統一します。
    例:日付型:2010/10/10:と文字列型:20101010

  • 読み取り形式変換
  • 一般的なデータ加工ツールは、1行目に項目名、2行目以降にデータを入力する形式のものしか読み取りができません。エクセルデータなどの場合、体裁調整のため、1行目に項目が入っていないものがあり、項目名を1行目にするなど読み取り可能形式への加工が必要です。
    非構造化データの構造化
    xml、JSONなどの非構造化データを集計、分析が可能な構造化を行います。

  • 全半角統一
  • 全角表記、半角表記が混在する場合には統一します。
    表記ルール統一
    会社名を「株式会社●●」「(株)●●」といったような形で表記ルールが異なっている場合は、統一します。

  • 欠損値補完
  • センサーデータのデータが取れていない場合など、欠損値がある場合には、一定のルールを決めて補完します。

  • 異常値補正
  • データの範囲が決まっているのにもかかわらずその範囲外の値であったり、他のデータと比べて極端にかけ離れている値がある場合には、一定のルールを決めて補正値を入力します。

  • 重複排除
  • 重複データが存在する場合には、重複データを削除します。

  • 表記ゆれ
  • 「サーバー」と「サーバ」といったような表記ゆれがあるものは統一します。

  • データ結合:横
  • トランザクションデータとマスターデータを結合し、集計しやすい形に結合します。

  • データ結合:縦
  • 複数テーブルに存在するデータを1テーブルにまとめます。同じ意味を持つものを同じ列で結合するようにします。片側だけに存在する列は、残すか削除するかの判断が必要です。

  • 単位
  • 単位が異なるデータを結合する際に加工が必要です。
    例: 1,000(kg)と1(t)、1,000,000(円)と1(百万円)

  • 列構造調整(分割・結合)
  • 同じ意味を持つデータでも1列で管理している場合と、複数列で管理している場合があります。活用目的により、列を分割・結合し合わせる処理を行います。
    例:住所を1列もしくは4列(都道府県、市区町村、番地、マンション名)で管理している
    データプレパレーション 行列構造調整

  • 行列構造調整
  • 一般的に、データの集計を行うためには、1行1列目から対象となるデータを用意する必要がありますが、特に、エクセルデータでは、その形式になっておらず、行列構造を調整する必要があります。

  • グループ化
  • 集計、分析をより分かりやすくるためにグループ化を行います。例:都道府県名から地方別にグループ分けする、誕生日から10歳ごとの年代グループ化をする


データプレパレーションの手順、主な作業内容に関する簡単な説明でしたが、いかがでしたでしょうか。

「datapreparation.jp」では、データプレパレーションを中心に様々な、データ操作、加工、活用などの記事を作成しています。
よければ、他の記事もご覧ください。

DataPreparation.jp(データプレパレーション.jp)
https://datapreparation.jp


記事作成日:2018年5月7日

Copyright © 2018 dbE All rights reserved