HadoopTimes

ストリーミングアーキテクチャ Apache Kafka とMapR Streams による新しい設計手法
導入検討

ビッグデータはどう収集するか

ビッグデータという言葉をよく耳にするようになってから時間がたち、今では多くの企業がビッグデータ分析によって様々な成果を得ています。その興味深い事例※1として、ダイドードリンコの自動販売機内での商品配置があります。

人間は何かものを見る際に、左上から右上、左下から右下といった視線を辿ると言われています。これは「Zの法則」といって、ダイドードリンコはこの法則通り左上に主力商品を配置していましたが、アイトラッキングを使用してデータを収集し分析したところ、消費者の視線は自動販売機の下段に集中していることが分かりました。そこで主力商品を下段に配置したところ、売上が1.2%増加したとのことです。

この他にもビッグデータ分析に関する事例はいくつもありますし、ビジネスで新しい成果を生み出しているのは大企業だけではありません。中小企業でもビッグデータ活用による成功事例は多く、今後も業界や規模を問わずビッグデータを活用することが重要視されています。

しかし一方で課題もあります。ビッグデータ分析に取り組む企業にとってまず課題になることが「データ収集」です。ビッグデータとはまさに大量のデータなので、これをいかにして収集するのかによって、ビッグデータの成否が問われると言ってもよいでしょう。

そこで今回は、ビッグデータをどのように収集すればよいのか?についてお話します。

ビッグデータの収集方法は?

ビッグデータの収集源は無数にあります。Webサイト、ECサイト、SNS、スマートフォン、製品に取り付けたセンサー、3rdパーティデータ、これらの収集源から大量のデータを集めることは今やそれほど難しい問題ではありません。ビッグデータ活用のためのデータ基盤は整えられており、企業は適切なITツールを導入するだけでビッグデータ収集を実行できます。

そこで大切になるのは、どういったITツールを導入するか?というところです。ビッグデータ収集の方法ばかりに頭を悩ませていると、時間や労力ばかり消費してしまい、本来得られるべき成果にたどり着けなくなってしまいます。

Googleは過去に「GOOG-411」という音声案内サービスを提供し、ビッグデータ収集に成功しています。GOOG-411は日本でいうところの「104」に類似したサービスであり、目的の場所や住所および連絡先を教えてくれるというサービスです。

Googleがこのサービスを提供した目的は「不特定多数の人の音声データを収集する」というものでした。通常、音声データを収集するためにはアルバイトを雇ってひたすらテキストを読み上げてもらいその音声をデータ化します。しかしそこには多大なコストがかかりますし、特定の人物の音声データしか収集できないことからビジネスへの活用は難しいでしょう。

しかしGoogleではGOOG-411を無料で提供することで不特定多数の音声データ収集に成功し、これをスマートフォンの音声アシスタント機能に活用しています。

この事例のようなビッグデータ収集方法はすべての企業には難しいかもしれませんが、適切なツールとアイディアさえあれば、ビッグデータ収集は容易にできる例としてご紹介しました。このような方法はいろいろ考えられるので、その中からビッグデータ分析の目的と効率性を考慮し、選択することが大切です。

ビッグデータ収集は「最初の1歩」ですらない?

ビッグデータを収集する目的は企業によって様々です。デジタルマーケティングに活かしたいという企業や事業成長に繋がる新しい洞察を得たいという企業、最近ではAI研究のためにビッグデータを収集するという企業が多いでしょう。いずれの目的においても言えることは、ビッグデータの収集はビッグデータ活用において「最初の1歩」ですらないということです。

そもそも皆さんにとってビッグデータの定義とは何でしょうか?米調査会社のガートナーによれば、ビッグデータは「Volume(量)」「Velocity(速度)」「Variety(多様性)」の3要素から構成される「3V」が必要だと定義されています。

ビッグデータは大量であり、入出力の速度が早く、多様性に溢れているというのです。こうした定義から「ビッグデータは大量かつ様々な種類の情報でなくてはならない」という固定概念を持つ人が少なくないでしょう。

しかし、ビッグデータは必ずしも「ビッグ」である必要はなく、むしろ時として「スモール」なデータの方が分析に適していることはあります。実は、ビッグデータに取り組もうと考えている企業の中には「データ集めなきゃ病」にかかっている企業が少なくありません。

「データ集めなきゃ病」とは、ビッグデータは「ビッグ」でなくてはいけないからとにかくまずデータを収集する、という考えに固執してしまうことです。

では、データさえ集めればビッグデータ活用は果たして上手くいくのでしょうか?答えは当然「No」です。データを収集するだけではビジネスのゴールにたどり着くことはできません。むしろ、ビッグデータ収集は「最初の1歩」ですらなく、その手前程度の段階です。ビッグデータ収集にとらわれ過ぎてしまうと、本質を見失って先に進めないということです。

ビッグデータは集めながら分析していく

そもそもビッグデータには収集の上限というものはありません。データは継続的に生み出されるものであり、かつ蓄積されていきます。そのため「データをここまで取集したら分析を始めよう」という考え方では、結局の想定以上のデータを収集することになり効率性が下がってしまいます。さらに「ビッグデータがやっと溜まった」という段階でデータサイエンティストに大量のデータを丸投げしても、ビジネスへの新しい知見や洞察を得るまでにはかなりの時間がかかるでしょう。

そこで有効なのが「データを収集しながら分析する」ということです。ビッグデータ活用では、やっとのことで収集したデータの7割はビジネスのゴール到達には使えないデータで、残り3割は使えてもすぐには分析できる状態ではないという例がよくあります。

反対に、収集したデータの量がビッグデータとしての想定にまだ達していないものの、ビジネスのゴール到達のためには十分なデータだったという例もあります。これらの事例から言えることが「データを収集しながら分析する」のが有効、ということです。

そのためまず大切になるのが、データ収集に入る前にビジネスのゴール到達に必要なデータの種類と最低限の量を明確にしたり、どんなラベル付けをするかをデータサイエンティストと相談しながら決めることです。そうした上でビッグデータを収集しながら同時に分析も行っていけば、少ない時間と労力で効率よく、より良い成果をあげることができます。

まとめ

日本を代表する大吟醸酒「獺祭(だっさい)」を製造する旭酒造は、過去の酒造データを分析したことで杜氏(日本酒を醸造する職人)無しでも世界最高峰の酒造に成功しています。旭酒造が持っていたデータは、必ずしも「ビッグ」ではありません。しかし、正しい着眼点と分析方法、それと活用方法を知ることでスモールデータでもビジネスのゴールに到達することはできるのです。皆さんもビッグデータ収集と同時に分析を進め、まず成果をあげることを目指してみてください。

※1これまでの常識をくつがえすビッグデータ分析シリーズ ~第一回:常識にとらわれない発見で売り上げ増加~

ビッグデータ/IoT時代のデータ分析プラットフォームまるわかりガイド

ビッグデータ/IoT時代のデータ分析プラットフォームまるわかりガイド
MapRコンバージド・データ・プラットフォームは、ビッグデータのための包括的な統合プラットフォーム機能を提供します。

リアルタイム処理が可能なデータベースに加えて、イベントストリーミング、拡張性の高いストレージ機能により、企業は、バッチ処理用、リアルタイム用といったシステムを組み合わせることなく、たった一つのMapRでデータ活用が可能となります。

このガイドでは、

・なぜ新しいビッグデータ基盤が必要なのか?
・多くの企業が抱えるデータ基盤の課題
・MapRコンバージド・データ・プラットフォームとは?
・MapRでビッグデータ基盤はどう変わるのか
・MapRを採用したお客様の声

を中心にご紹介しています。この機会にぜひご覧ください。

無料ダウンロードはこちら

こちらの記事もおすすめです