HadoopTimes

実践機械学習
最新動向

ビッグデータが持つ7つの問題点と打開策

IoT(Internet of Things)デバイスの普及やインターネットユーザーの増加などにより、世の中のデータは“常に増え続けて”います。

一組織が扱うデータ量も年々増加傾向にありまさに“ビッグデータ時代の到来”と言えるでしょう。

そしてビッグデータを分析し有効活用することでビジネスにおける新たな知見を見出すことができるので、各業界からビッグデータ分析への注目が集まっています。

ビッグデータ分析を取り入れるには解決すべき問題点があるわけですが、果たしてその問題点とはなんでしょうか?

ビッグデータが持つ7つ問題点

データ量の増大による処理速度の問題

ビッグデータ分析を行う上でほとんどのデータは“鮮度”が命です。時間が経過するにつれデータとしての価値が落ちていくので、リアルタイムなビッグデータ分析ができるのがベストな環境と言えます。

一方でビッグデータとは従来のデータ量とは比べ物にならないほど大量なデータ群を分析することが多いので、処理速度の問題はリアルタイムなビッグデータ分析が難しくなってしまうのです。

サイバー攻撃による情報搾取

標的型攻撃やランサムウェアなど、2016年もサイバー攻撃は徐々に深刻化しています。ビッグデータ分析ではこうした情報漏洩の脅威からデータを守らなくてはなりません。

従ってセキュリティシステムの導入や内部体制の整備など、ビッグデータを守るためのセキュリティ性を向上させるという課題があります。

サードパーティによるデータ消失のリスク

IaaS/PaaSといったクラウドサービスの普及により、サードパーティにデータを保管するというケースが少なくありません。

恐らくですがクラウドサービスは今後もビジネスの中心となっていくので、現在利用していない企業でもいずれかは検討・導入するタイミングがあるのではないかと思います。

そうしたとき、セキュリティをサードパーティに依存することになるので、サービス比較の際はセキュリティ要件をしっかりと確認しておくことが重要です。

データサイエンティストの確保あるいは教育

ビッグデータ分析が広まるにつれ、それに比例して深刻化していくのが“データサイエンティスト不足”です。

やはり分析の専門家がいるに越したことはないので、ビッグデータ分析を始めるのであればやはり確保してきたいところでしょう。

あるいは、既存の人材をデータサイエンティストとして教育するという方法もあります。

技術の広範囲化による問題

膨大な量のデータを分析するとなると、やはり技術が必要になる上に広範囲化します。

ビッグデータ分析にはもとになるデータが必要ですので、しっかりとしたデータ取得環境を導入するだけでも多くの技術を導入することになるのです。

ユーザーのプライバシーに関する問題

加盟店であればそれ1枚でポイントを集めることができる“Pontaカード”ですが、実は加盟店間でユーザー情報を共有できると知っていましたか?

つまり複数の加盟店から大量のユーザー情報が集めるのでこれも一つのビッグデータだと言えます。

しかし、こうしたユーザー情報の共有がプライバシーを侵害するケースも今後出てくるかもしれません。何にせよデータの使用方法はしっかりと明確にしておくべきです。

抽出するデータにより分析結果は変わる

ビッグデータとは大量のデータが集まって成り立っているものなので、分析する上ですべてのデータを分析することはできません。

ですので時間効率化などを考え、タッピングと呼ばれるデータ抽出を行い、その一部のデータで分析を行います。

つまり、100あるデータ群のうち10や20といったデータを抽出することで分析を行っています。

しかしこうしたタッピングでは同じデータ群の中でも、抽出するグループによって分析結果が大きく異なるケースも少なくありません。

例えば、とある2つのWebサービス会社が“ユーザー満足度No.1”と銘打っているところをよく見かけますが、これはどちらかが嘘をついているわけではありません。

注意書きをよく見ると“○○リサーチ調べ”など、異なる調査会社のデータを用いているので、このように同じ目的のデータ分析でもタッピングするグループによって結果が変わるのです。

結果を信じてマーケティングを展開しても、実は根本的に間違っていたと失敗に終わることもあるので要注意です。

ビッグデータの問題点に対する打開策

分散処理システムでデータ分析を高速化

日々増大するデータをリアルタイムで分析するためにはやはり処理速度の向上が求められます。

そこでサーバを“スケールアップ”して性能を高めるか、“スケールアウト”して台数を増やして分散処理するかという2つの選択肢がありますが、現実的かつ効果的なのは後者の分散処理です。

分散処理システムを導入することで、複数台の安価なサーバで大量のデータ分析処理を効率的に高速化できます。

コストダウンにも繋がり可用性の確保にもなるでしょう。

セキュリティシステム導入よりまずは内部対策の見直しを

セキュリティ性の向上という課題に対しては、実はセキュリティシステムを導入するよりも内部対策を見直す方が先決です。

情報漏洩事件の8割は内部犯行や過失によるものだとされているので、外部からの不正アクセスを防ぐよりまずは内部のセキュリティルール作成や対策を立てる方が、セキュリティ性の向上に貢献するのです。

サードパーティ利用の際はセキュリティ要件のチェック

データ損失リスクのあるクラウドサービスといったサードパーティですが、どうしても利用したい場合が多いと思います。

従量課金制や物理サーバの必要性がないといった点はかなりメリットが多いからです。

この場合はサードパーティのセキュリティ要件をしっかりと確認した上で、データ損失リスクの少ないサービスを選ぶことが重要になります。

データ分析ツールと最低限の専門知識

最近では、データサイエンティストでなくてもデータ分析ができるビジネスインテリジェンス(BI)などのデータ分析ツールが人気を集めています。加えて最低限の専門知識があれば、プロと遜色ないデータ分析も可能です。

ちなみにBIだけでなくデータ分析処理基盤なども重要なので忘れないように。

広範囲をカバーするデータ分析処理基盤の構築

ビッグデータ分析というのはどうしても技術が広範囲化することで、システムの複雑化とコストの増大という問題をかかえています。

これはクリアするためには1つで広範囲をカバーするデータ分析処理基盤が重要です。

データ利用目的の明示

データ取り扱い規約にいくら説明書きがあったとしても、ユーザーが簡単に確認できなければ、プライバシー侵害になる可能性もあります。

そこで“ユーザーから集めたデータをどう使うのか?”規約を作るだけでなく、分かりやすく明示することも大切です。

データに漏れがないか十分に確認する

データ分析のタッピングで失敗するときは、分析するデータグループに漏れがあるケースが多いでしょう。

こういったときはデータ分析のフレームワークなどを活用し、データに漏れがないかを確認することが重要です。

まとめ

いかがでしょうか?ビッグデータ分析にはまだまだ多くの問題点が残されていますが、一つ一つにしっかりと対策を立てていくことで、快適なビッグデータ分析基盤と高速かつ正確な分析処理を行うことができます。

また、分析するだけでなく“結果をどう活かすか?”も非常に重要なポイントなのでお忘れなく。

ビッグデータ/IoT時代のデータ分析プラットフォームまるわかりガイド

ビッグデータ/IoT時代のデータ分析プラットフォームまるわかりガイド
MapRコンバージド・データ・プラットフォームは、ビッグデータのための包括的な統合プラットフォーム機能を提供します。

リアルタイム処理が可能なデータベースに加えて、イベントストリーミング、拡張性の高いストレージ機能により、企業は、バッチ処理用、リアルタイム用といったシステムを組み合わせることなく、たった一つのMapRでデータ活用が可能となります。

このガイドでは、

・なぜ新しいビッグデータ基盤が必要なのか?
・多くの企業が抱えるデータ基盤の課題
・MapRコンバージド・データ・プラットフォームとは?
・MapRでビッグデータ基盤はどう変わるのか
・MapRを採用したお客様の声

を中心にご紹介しています。この機会にぜひご覧ください。

無料ダウンロードはこちら

こちらの記事もおすすめです