非構造化データは、データベースなどで使用される構造化データに対して、ドキュメントや映像、音声など構造化されていないデータのことを指します。
今回は、非構造化データについて、簡単に説明します。

非構造データって

非構造データとは

ビッグデータの3V

アメリカの調査会社 ガートナー(発表時点の2010年は、METAグループ)では、ビックデータの特性として、「Volume=データの量」「Velocity=データの発生、更新頻度」「Variety=データの種類」と定義し[1]、頭文字をとって、「3V」と言われています。
これに加え、ビッグデータの特性として、「Veracity=データ正確性」[2]や「Value=データの価値」[3]、について言及するところもあります。

非構造化データの種類

非構造化データは、その観点から様々な種類に分類できます。

ファイル形式(拡張子)による分類

テキスト、csv、tsv、画像、音声、映像、ログデータ、ドキュメント、プレゼンテーション、表計算、圧縮ファイルなど

用途、データソースによる分類

資料・書類、商品レビュー、電子メール(本文)、議事録、報告書、ブログやSNS等の投稿、記事、商品紹介、デジタルサイネージ、防犯カメラ、TV会議・電話会議、ICレコーダデータ、CTI音声ログデータ、システムログ、アクセスログ、センサーログなど

データの種類 出典  [4] DATA GENOMICS INDEX 2016Veritas Technologies社の調査結果[4]によると、企業内に保存されているデータの多くが画像、ドキュメントなどの非構造データが多数含まれています。

非構造化データ量の急速な増大

データの種類には、従来型データベースに格納された数値などの定型化して扱うことのできる構造化データとテキスト、画像、音声、動画など構造化されていない非構造化データに分けられます。
非構造化データ量の急速な増大 
 構造化データと非構造データの伸び(イメージ) 出典:[5] 総務省「情報流通・蓄積量の計測手法の検討に係る調査研究(2013年)データ/コンテンツの種類の多様化により、従来型データベースに代表される構造化データに加え、企業が所有するデータには、テキスト、ドキュメント、画像、音声、映像などの非構造化データも大量に存在し、今後も飛躍的に増大すると言われています。[5]

非構造化データ活用のためのデータプレパレーション

構造化データでは、あらかじめ、そのデータがどのようなものであり、関係性がどのようになっているかを明確にした上で、保持しているためにその活用も容易です。しかし、非構造化データの場合、そのデータが何か、どのような関係にあるかが明確になっている必要があります。
人が見れば、少量の非構造化データを見る場合は、どのような関係かはわかりますが、大量のデータが対象となると困難になります。また、計算機には、あらかじめそれが何か、関係性がどうかを認識させないと、集計、分析、検索などへの活用ができません。
そのため、計算機を使用し、非構造化データを有効活用するためには、そのデータが何で、その関係性がどのようになっているかを明らかにし、計算機に認識させる必要があります。関係性を明らかにすることで、集計、分析、検索などの活用に使用できるようになります。

非構造化データ ドキュメントデータ データプレパレーション手順例例えば、ドキュメントデータであれば次の手順で進めます。

  1. ドキュメント内のデータ分類、抽出
  2. 「見出し」、「本文」、「図、画像」、「表」などに分類を行った上で、ドキュメント内にある情報を抽出します。

  3. ラベル付け
  4. 抽出したデータ種類に応じて、画像分析、OCR、自然言語処理などを使用し、抽出したデータを使用目的に応じて、ラベル付けします。

  5. 関係性整理
  6. 分類、抽出、ラベル付けしたデータの関係性を整理し、関係性を整理します。

これは、ドキュメントデータのデータプレパレーションの一例ですが、対象となる非構造化データの状況、活用方法により、それぞれ独自の対応が必要となってきます。


非構造データについての説明は、いかがでしたでしょうか。

「datapreparation.jp」では、データプレパレーションを中心に様々な、データ操作、加工、活用などの記事を作成しています。
よければ、他の記事もご覧ください。

DataPreparation.jp(データプレパレーション.jp)
https://datapreparation.jp


記事作成日:2018年5月7日


参考文献

[1] 3D Data Management: Controlling Data Volume, Velocity and Variety
https://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf
[2] Extracting business value from the 4 V’s of big data | IBM Big Data & Analytics Hub
http://www.ibmbigdatahub.com/infographic/extracting-business-value-4-vs-big-data
[3] ビッグデータとは – Fujitsu Japan
http://www.fujitsu.com/jp/solutions/business-technology/intelligent-data-services/convergence/bigdata/
[4] DATA GENOMICS INDEX 2016
http://datagenomicsproject.org/Data_Genomics_Index_2016.pdf
[5] 総務省「情報流通・蓄積量の計測手法の検討に係る調査研究(2013年)
http://www.soumu.go.jp/johotsusintokei/linkdata/h25_03_houkoku.pdf

Copyright © 2018 dbE All rights reserved