HadoopTimes

ストリーミングアーキテクチャ Apache Kafka とMapR Streams による新しい設計手法
技術情報

ビッグデータからROIを最大化する方法

Drillを使用したビッグデータ及びHadoopからROIを最大化

特定のユースケース専用のHadoop Big Dataシステムが多くの事業で利用されています。場合によってはコールセンターの記録収集、工場フロアのセンサーレポートの分析、またはリアルタイムの顧客動向を追跡するためのツイートの監視等が行われています。

イニシアティブを選択するため、ビッグデータ・ドリブンのプロジェクトを制限することは有意義であり、最初のビッグデータ分析のソリューションは、限られたユースケース用に最適化されていました。しかし、データソース事業が取るソリューションのオプションが成熟し、拡大しつつあります。現時点でビッグデータ投資を最大限利用するには – また、おなじみの「ビッグデータの3つのV」: 量、種類、速さの利点をフル活用するには – 単一のユースケースの段階から複数ユースケースの想定へとシフトすることが望まれることになるでしょう。

Apache Drillを利用して、ユースケース・オプションを拡大しましょう

企業間データドリブン・インテリジェンスの使用は、過去の、かつリアルタイムに近いデータを取り扱う、インタラクティブな、セルフサービスの手法の実現を必要とします。核となるHadoopプラットフォームは、すでに多くの基本的な (過去のデータの) ビッグデータ・アクセスならびに利用の問題を解決しています。スタンドアローンのクエリエンジンであるApache Drillの追加により、データ・アナリストが要求に応じて、複数のデータ元にわたるデータクエリを自由に追跡することが可能になりました。

Apache Drillは、SQLのビッグデータに関するユースケースを幅広くサポートするよう設計されています。Apache Drillは、インタラクティブなクエリ環境 (OLAP、セルフサービスのBI、データ可視化) 及び調査分析 (データ科学 / 探査) を含む、待ち時間の少ないパフォーマンスが必要な状況や、リアルタイムに近いデータのDay Zero分析における使用に特に適しています。これにより、広範なデータ元ならびにJSON、Parquet及びHBaseテーブルを含むフォーマットにわたる、高効率の分析を実現します。

複数のユースケースにまたがるApache Drillの有効性は、そのアーキテクチャに大きな意味があります。Apache Drillは、SQLステートメントを実行する動因である、ドリルビットと呼ばれる階層組織化モジュール上に築かれています。ドリルビットは、データを保有する各ノードにインストールされ、それが管理するデータのSQLクエリの実行が可能となっています。

データが複数のノードにわたって保管されると、全ての適用可能なドリルビットがその実行を並列化しつつ、そのクエリを実行します。Apache Drillにアクセスするアプリケーションは異なるドリルビットに「接続」され、利用の障害を取り除き、データのローカル化を確実にします。

こちらの記事もおすすめです