HadoopTimes

実践 機械学習:レコメンデーションにおけるイノベーション
技術情報

ビッグデータトレンドの中間報告: Apache Kafka、Spark、Flink、Drill他

1月に私は2016年のビッグデータトレンドについて6つの予想を立てました(Apache Spark、Kafka、Drill、その他 2016年の予想)。ちょうど1年の折り返し地点を過ぎた今、私の予想が2016年に実際に起きたことと比べてどのくらい当たっていたのか、また、今年の後半にはどのようなことが起こりそうかを振り返ってみたいと思います。

ネタバレですが、実はポケモンGoも予想していました・・・

予想1

「今まで知らなかったビッグデータの革新的な使い道が考え出されるでしょう」

これを書いた時には、まさか老若男女を問わず人々が「バーチャルな生き物をスマートフォンで捕まえながら歩き回ることになる」とは考えていませんでした。オーストラリア、ニュージーランド、アメリカでポケモンGoがリリースされてからまだ2週間も経っていませんが、5日前、このゲームはもっとも利用者数が多いモバイルゲームだと報道され、日次のユニーク・ユーザー数はツイッターを超えました。私はゲームそのもの、そしてその異様なまでの衝撃については予想していませんでしたが、驚くべきことが起きることは予想していました。

加えて、私はストリーミングデータの新しい使い道を見出す人が急激に増え、さらにビッグデータの領域でテレコミュニケーションの存在が強大になるだろうと予想しました。ポケモンGoはこれらの予想を双方ともに含んでいます。今のところいい線を行っていると言っていいのではないでしょうか。

では、それぞれの予想を真面目に振り返ってみましょう。

予想2

「ストリーミングデータとストリーミング分析に爆発的な興味が寄せられるでしょう」

事実、ストリーミングデータの話題はトランスポート、プロセスの双方でかなりの盛り上がりを見せています。人気の高い Apache Spark プロジェクトは主にインメモリーでマイクロバッチングの手法を用いる Spark streaming を提供し、リアルタイムに近い処理を行います。また、Apache Flinkプロジェクトへの関心は、プロジェクトが生まれたヨーロッパ以外の場所でも高まっています。Flinkは高スループット、フォールトトレランスなシステムで、データをリアルタイム、またはバッチ・モードで処理することを可能にするストリーミングデータ・エンジンです。

また、効率的なストリーミングアーキテクチャをサポートし、独自な性能を持つメッセージツールに対する意識が高まるだろうとも予想しました。この傾向はApache Kafkaとして知られるメッセージトランスポートや、Kafka 0.9 APIをサポートし、かつMapRコンバージドデータプラットフォームに統合されているMapR Streamsと呼ばれる新しいメッセージシステムの人気が高まっていることからもわかります。この両方ともが私の予想を上回るレベルで起きています。

データトレンドストリーミング

図で横向きの円柱で示されるメッセージストリームは、ストリーミングアーキテクチャの中核をなします。複数のアプリケーション(利用者)が相互干渉する危険性なしにストリーミングデータをシェアすることができます。人気が高い4つのデータプロセッサーについて説明しましょう。(image © E.Friedman 2016)

サンホセとロンドンでのStrataカンファレンス、ダブリンとサンホセでのHadoopサミットカンファレンス、サンフランシスコでのSparkカンファレンス、ベルリンBuzzwordsカンファレンスなど春と初夏に行れたビッグデータカンファレンスで協議された話題によると、ストリーミングデータが大流行しています。私はO’Reilly著作の「ストリーミングアーキテクチャ」と題された本出版記念のため、共著者のTed Dunningともにたくさんのサイン会を行いましたが、サイン会に訪れた人々はみなストリーミングプロジェクトデザインの手法やそれをサポートするテクノロジーについて非常に熱心でした。

特に6月のベルリンBuzzwordsカンファレンスでは、Kafkaスタイルのメッセージトランスポートに関するキーノートとApache Flinkの技術的な面に関する9件のスピーチを含む、17件のストリーミングに関するプレゼンテーションがあり、ストリーミングデータについての多くの人々の関心を集めました。

予想3

「ビジネスは迅速に価値を創出する実践的な方法を求めています。あなたのビジネスがSQLを必要としているなら、2016年にはApache Drillを試してみるべきです。」

Apache Drillは4月にリリースされたバージョン1.6で大幅な機能強化が施され、6月リリースのバージョン1.7で補足的な改善をするなど、現在のところ順調な進化を遂げています。私はDrill活用成功例に興味を持ちました。幾つかのビジネスでは、多様なデータソースが混在している環境に対して、データ活用の前段処理を劇的に単純化する方法としてDrillを適用しています。

今後、最新リリースのDrillについて、その最適な活用やパフォーマンス改善の方法について見出されることが、今から楽しみです。

予想4

「多くの組織が迅速に同期される複数のデーセンターをより安全かつ信頼できる方法で管理することが求めるでしょう」

この予想はまさに的を得ていました。人々は異なるデータセンターにまたがり、安全にデータを共有する方法を探しています。テレコミュニケーション、公共設備、金融部門、IoT、そしてアドテクノロジーの分野のビジネスにおいて、災害対策(ディザスタリカバリ)のためだけではなく、ビジネス構造の根本的な側面としてデータセンター間のデータコミュニケーションをより高信頼で安価に処理することが求められています。1つ目のデータストリーミングについての予想と重なる部分もあります。MapRコンバージドデータプラットフォームに統合されているMapR Streamsメッセージストリームテクノロジーは、データセンター間のストリーミングデータを拠点間でレプリケーションすることが可能で、多くの人びの注目を集めいています。安価なシンクロナイズドミラーリングやクラスタ間、データセンター間のダイレクトテーブルレプリケーションを実現するのためにMapRの基本機能として追加されています。

予想5

「医療業界におけるビッグデータの利用は、劇的な増大を見るでしょう」

この予想は十分ではありませんでした。ビッグデータリソースを利用する医療が増えてはいるものの、「劇的増大」はまだ言えないでしょう。研究機関、介護サービス、また医療保健ビジネスにおいて、これらの技術を医療業界に適用することによる利益もありますが、この業界には規制とプライバシー問題と言ったクリアすべき課題もあります。データサイエンティストのJoe Blueは短いインタビューでこれらの課題について触れています。

この分野での発展の余地は予想で述べたようにまだまだありますが、今のところまだ緩やかな変化にとどまっています。

予想6

2016年にビッグデータの領域でさらに突出してくる分野はテレコミュニケーションでしょう」

巨大な顧客ベース、リアルタイム更新や消費者への割引き、交通やナビのアプリケーション、バーチャルリアリティーゲームのような企業や産業を超えて、幅広くビッグデータを活用するとことのニーズが、ビッグデータ使用事例においてテレコミュニケーションが注目されている要因です。テレコミュニケーションは膨大なストリーミングデータや複雑な料金体系、瞬間的な意思決定、高度な機械学習モデルといった分野への適用に迫られています。

これらのアプローチのいくつかは異常検出と関係しており、またMapRのアプリケーションアーキテクト責任者であるTed Dunningによる6月のStrata + Hadoop Worldロンドントークではこの話題に対する高い関心が示されました。テーマは「Sparkを用いたテレコミュニケーションでの異常検出」と題されており、トーク会場では通路にまで観客が入り、警備員が入場制限をかけていました。Tedは「実践的なアーキテクチャと、イベントストリーミングの異常検出を行うためのデザインパターンと詳細なアルゴリズム例」について話しました。

追加トピック:コンテナ

2016年の予想の中でコンテナについては触れませんでしたが、コメントしておくべきでした。コンテナは、アプリケーションが同じように動作する安定した環境を供給するソフトフェアアプリケーションのラッパーであり、Dockerはクラウドデータとデータセンター両方の分野で、ビッグデータアプリケーションのためのコンテナを提供する重要なプロバイダーです。Dockerのようなコンテナリゼーションツールを使えば、複数のコンテナを同じサーバー上で1つのオペレーティングシステムの中で操作することができます。言ってみれば、サーバー上のバーチャルマシンがそれぞれのオペレーティングシステムを持っているということです。実質的にサーバー上でVMを上回る数のコンテナを操作することができますが、コンテナはVMのように安全ではありません。

企業が本番環境において新しいデータスケールとデータソースを使うことによるメリットを得るために、さらに効率的なビッグデータアプリケーションを構築し、維持することにフォーカスされます。そのためコンテナリゼーションの役割への関心も自然と高まるでしょう。

今後について

今回の記事では新しいテクノロジーや手段により、予想だにしなかったことが起き、ビッグデータの分野で驚くべき革新が生まれるという予想から始まりました。そしてそれが実際におきています。今後も「どのような驚き」が起こるのか注目していきたいと思います。

著者情報

エレン·フリードマン

エレン·フリードマン

(MapR Technologies ビッグデータ・コンサルタント Apache Mahoutコミッター)

MapR Streams : ビッグデータ向けパブリッシュ/サブスクライブモデルのイベントストリーミング

MapR Streams : ビッグデータ向けパブリッシュ/サブスクライブモデルのイベントストリーミング
MapR Streamsは、エンタープライズグレードのセキュリティやグローバルスケールの信頼性があり、ストリーミングデータを利用してリアルタイムで処理を行える画期的なデータ活用アプリケーションを実現します。

詳細についてデータシートをご確認ください。

無料ダウンロードはこちら

こちらの記事もおすすめです