HadoopTimes

ストリーミングアーキテクチャ Apache Kafka とMapR Streams による新しい設計手法
技術情報

Apache Drillの優れた4つの理由

この間アジア太平洋地域に出張に行った所、現時点ですでにApache Drillに対して強い興味が見られていたことに驚いたのと同時に、Drillの採用が急速に進んでいることにも驚かされた。このコミュニティでみられる大きな支持のうねりは、Drillがいまやトップレベルのプロジェクトであるという本日のApache Foundationアナウンスによっても裏付けられた。Apache Drillプロジェクトでは多くの文書を目にすることができるが、顧客やシステムインテグレータから日々熱烈なフィードバックが寄せられている。こうした顧客が新ツールに強い興味を示す理由について話をさせていただきたい。

  1. データに関するセルフサービス: Hadoop はいつの時代も強力なプラットフォームであったが、それはアナリストがDrillというセルフサービスのデータ調査ツールを利用できないときであった。Drillは初めてのフルANSIスタンダードなインタラクティブクエリープラットフォームである。アナリストは Tableau、BusinessObjects、MicroStrategy、Excelなどの分析ツールを使用してクエリーを作成し、ダッシュボードを構築してデータを調査している。ANSIスタンダードとは、こうした分析ツールによって生み出されるSQLが想定通り動くことを意味する。不完全なSQL実施もまた、生み出されたSQLを実行できず、かつてアナリストは不完全なツールのせいで時間を浪費していた。そしてアナリストは完全なソリューションを求めるようになった。
  2. データ・アジリティ(俊敏性): アナリストは新たなデータソースにすぐにアクセス可能で、データを構造化するために既存のDBAサービスに参加することなくデータソースを変更できる。Drillは読み込み時のみ構造を必要とし、既存のプラットフォームのように書き込み時には必要としない。DrillはHive MetastoreとJSON、HBaseテーブルやCSVなど、自己書き込みデータ交換フォーマットの両方を使用する。Schemaは読み込み時に全てのデータソースが適用される。Hive Metastoreのアプリケーション・バインディングはコンパイルタイムに起きる。自己書き込みデータフォーマットは、よりダイナミックで迅速なランタイムデータ・バインディングを使用する。
  3. インタラクティブクエリーのレスポンス時間とスケール: データウェアハウス市場はいくつかあるプラットフォームの選択に際し、よくインタラクティブクエリーのレスポンス時間を使用する。結果は、SQL クエリーの結果テーブルのサイズによって変わる。メモリに属する結果テーブルは、ディスクに流出するものより速いレスポンス時間をもたらす。Drillのアルゴリズムは結果セットをメモリに収めるが、ディスクに流出する大掛かりな結果テーブルに良好なレスポンス時間をもたらしもする。まさにこれこそ、ビッグデータである! TPCのベンチマークはレスポンス時間を計測するのにも使用できる。その他のSQL on Hadoopプロジェクトと比較して、Drillが修正を必要とすることなく、こうしたベンチマークを動かせるかについてみることができるだろう。
  4. ユビキタス性: Drill on Sparkに関する発表がなされ、そしてDrill on MongoDBが最近、コミュニティ内で開発されている。今後数か月に渡って、多くの企業がDrillを自社プラットフォームに統合するのは間違いないだろう。

Drillがビッグデータに関してインタラクティブなデータ調査をするのに、それほど価値のある革新的なテクノロジーである理由はほかにもたくさんある。クイックスタートガイドを使って早速始めてもらい、詳しいことについては Apache Drillのウェブサイトを参照してほしい。Drillの使用法については、Apache Drillサンドボックスをダウンロードし、サンドボックス・チュートリアルを試してほしい。

こちらの記事もおすすめです