HadoopTimes

ストリーミングアーキテクチャ Apache Kafka とMapR Streams による新しい設計手法
技術情報

データ・アナリティクス: IoTを実生活へ浸透させるための最重要の課題

ここ2年の間だけでも、IoT (モノのインターネット) に関する応用例として世界中で膨大な数の開発が進んでいる。多くのデバイスが互いに通信しあう場面は枚挙にいとまがない。たとえば、すっかり有名になったFitbitの健康製品から、スマート・マニュファクチュアリングを標榜する製造工場、商船、そしてスマートホームやスマート病院、真珠養殖場まで、またそれ以外にも応用例はいくらでも思いつくだろう。IoTは今や現実なのだ。オーストラリアを例にとれば、農業と鉱業、それに小売業がこれからIoTが広まる可能性の一番大きな3分野である。

しかし、このすばらしいIoTのプロジェクトやアプリケーションを実行に移すとして、もしあなたがデータ分析を行ってIoTから価値ある情報を引き出したり成果にまとめ上げたりするための適切なツールを持っていないとしたら、いったいどうすればいいのだろうか。

IoTを生活の中に持ち込む

IoTが現実に目覚ましい影響を与え始めている領域がすでにある。たとえば、いくつかのスマートシティやスマートキャンパスでは、スマートグリッド・オーストラリアに関するいくつかの研究が明らかにしているとおり、生み出されるデータの量が劇的に増えていくであろういくつかの計画が実行に移されている。最近、ジーロングのディーキン大学はこの分野で極めて興味深いプロジェクトを始めたところだ。

IoTは明らかに大きな可能性に富んでおり、この先10年以上にわたって力強く発展していくだろう。

IoTプロジェクトを生活の中に浸透させその能力を十分に引き出すために、データ分析が重要である。もしあなたがうまくデータを収集し解析して成果に結び付けたいなら、まずは、IoTから次々に得られるデータの必要に合うようにデータ処理プラットフォームとサポートを最初から適切に選ぶ必要がある。うまく選びさえすれば、IoTによる変革の力は限りなく広がるだろう。

大量のデータを扱う困難に対処

こうして集まるデータを意味あるものにするため、企業としてはあらゆる情報を集めて保管し、日付順に参照ができるようにし、データに階層付けを施して、トレンドを掴みまた理解しやすくしておくことが重要である。そのために、また大量の小さな個別ファイルを取り扱うためには、きわめて拡張性の高いIoT処理用プラットフォームが必要不可欠となる。このプラットフォームは万単位のファイルを扱えるだろうか、億単位に拡張できるか、兆単位なら? 答えはいつも「イエス」でなくてはならないのだ。

データ分析に関して言えば、情報をただ単にデータ保管庫に貯蔵して後日レポートを返してくれるだけでは話にならない。IoTで利用するからにはそれでは全く足りないのだ。データは基本的に集まると同時に処理されなければならず、興味深い情報であるかどうかを即座に判断して効果的に対応ができるようでなければならない。

IoTからもたらされるデータは大量であり、構造化されたデータもされていないデータも含まれる。プラットフォームにはあらゆるタイプのデータを形式に関わらず保管し処理する柔軟性が求められる。また、入力されてくるデータの逐次処理が最初からできなければならず、またある程度構造化された大きなデータに対するクエリーが低レーテンシーの場合でも、取り扱いができなければならない。

モノのアーキテクチャー: データ用プラットフォームの適切な選択

現在のIoTの様相を見ると、いまだに広く認められているリファレンス用アーキテクチャーが無いことが大きな問題である。しかしながら、これまで提案されてきたいくつかのアーキテクチャーは一つの共通したテーマを持っている。多くの言語に対応した処理だ。さまざまな処理モードを一つのプラットフォームにまとめて、たくさんの異なるフォーマットでも取り扱えるようにしているのだ。

個人情報保護とセキュリティも、IoTデータ処理プラットフォームが対応すべき追加機能である。データのマスキングから暗号化されたデータの来歴確認まで、ユーザーの個人情報保護は重要な課題である。

ひたすらデータを集める機能はソリューションの一部に過ぎない。重要なのは、過去のデータに基づいた解析で、現在進行中の出来事に対して深い予測を行う能力である。それゆえ、統合化データベースは不可欠である。

私の意見では、データを巡るこうした問題点に対応できるプラットフォームは、自然な選択としてApache Hadoopとなる。大規模なデータ集約型の配備を前提に設計されたものだ。Hadoopは、一般的なコンピューターを何台も連携させて並列処理させることで膨大な量のデータを処理できるように作られている。MapReduce かまたはApache Spark実行エンジンを用いて、Hadoopはデータセットからクエリーを取り出しそれを分割し、多数ノード上で並列計算させることができる。この能力によりHadoopは、IoTの世界に含まれるさまざまな異なる機器から作り出される大量のデータを処理する理想的なプラットフォームと言える。

作り出されるデータの分量は今後増え続ける一方だろうから、役に立つデータ処理用プラットフォームを最初から適切に導入することが肝心である。そうして、優れた結果がすばやく、しかも半永久的に得られるようにしておくのだ。

データを単なるIoTプロジェクトの出力、などと考えてはならない。データは戦略の中心に据えられなければならない。こうしてデータを分析しまた安全に保つために適切なプラットフォーマットを選ぶことこそ、あらゆるIoTプロジェクトにとって成功の重要な秘訣の一つであろう。

こちらの記事もおすすめです