HadoopTimes

実践 機械学習:レコメンデーションにおけるイノベーション
最新動向

M.C. Srivas氏、Apache Drillについて語る

Apache Drill

MapR Technologiesの最高技術責任者 (CTO)兼共同創業者は、ミュンヘンHadoop User Group でApache Drillプロジェクトについて講演を行いました。以下は、HUG Muenchenのブログからの引用です。原文はcomSysto blogで公開されたものです。

Apache Drillの詳細 – Hadoop上の高速インタラクティブSQL
Drillプロジェクトでのあなた個人の役割は何ですか。
M.C. Srivas氏:パフォーマンスを把握やアーキテクチャ上に存在する問題を解明するためにDrillチームと共にに作業しています。基本的にはプロジェクトで遊んでいます。しかしプロジェクトは主にJacques Nadeau氏によって運営されています。Nadeau氏は、本当にすばらしい男です。

Apache Drillの背景にある指針とは何ですか。
M.C. Srivas氏: 大きく2つあります。1つ目は、Drillは完全に拡張可能なように設計されているということ。2つ目は、Drillは基となるデータ・ストレージが無いこと、しかしそれが本当に可能ならデータ・ストレージの力を引き出せるよう設計されているということです。

Drill とHiveやImpala、Sharkの違いは何処にありますか。
M.C. Srivas氏: DrillはANSI SQL 2003を完全に実装しており、それに加え、クールな拡張機能も付属しています。HiveやImpala、Sharkは全てANSI SQLとは異なるHiveのクエリ言語を実装しています。

Apache Drillが特別なのはどこですか。
M.C. Srivas氏: Apache Drillは、SQL言語で有効な方法で誰でも半構造化データを扱えるようにしてきた初めてのものです。またSQLが自己記述型データをメタデータ・マネージャなしで初めて扱えるようになりました。そのため分析者は、スキーマ定義なしにデータを検索できます。ローデータをETL無しで直接処理することも可能です。最も難しい課題は、自動的にスキーマを検出することでした。それとスキーマ内のクエリ自体が変更された際に補正を行うことでした。

クエリ言語にどうやって異なるデータ・ソースを反映させるのですか。
M.C. Srivas氏: データ・ソースは、コネクタを使用する代わりにFROM句内から直接組み込まれます。他におもしろいイノベーションとして、データのファイルパス内のディレクトリ構造をトークン化したことがあります。そのためこれらのトークンはクエリ内で使用できます。

Drillはどうやってネストされたデータを扱うのですか。
M.C. Srivas氏: Drillは、ネストされたデータをトップレベルにあげるためにFLATTEN句を導入しました。そこではクエリを実行可能です。DrillはGoogleのDremelとBigQueryのアイデアを借り、FROM 句内でWITHIN RECORD句を実装することによってネストされたデータ内を検索できるようにしました。

クエリー実行中にスキーマを変えるとおっしゃいましたが、Drillはどうやってそれらを管理するのですか。
M.C. Srivas氏: Drillは、その作業を全て256Kの境界内で行います。もしデータの最後の256Kでスキーマの変更が検出された場合、Drillは、それまで何が処理されていてもまず出力し、それから新しいスキーマに合わせて演算子を再構成し実行を続けます。

MapRはDrillプロジェクトにどのようにかかわっているのですか。
M.C. Srivas氏: MapRは、Drillプロジェクトを約1年半前にキックオフしました。そして現在約20名のエンジニアがDrillプロジェクトにフルタイムで参加しています。しかしプロジェクト自体はMapRよりもさらに大きく、複数の企業や個人がプロジェクトに関与しています。MapRの社員を含め、約35~40名の人がDrillプロジェクトで積極的に活動しています。

Drillは、MapRの特別な機能を何か活用していますか。
M.C. Srivas氏: いいえ。というのもそれは不可能だからです。MapRの特別な機能は全て管理面での改善でAPIを改修していないのです。

最後に、 ミュンヘンHadoop User Groupについての印象をお聞かせください。
M.C. Srivas氏: 一般にミュンヘンにはHadoopやビッグデータに対して常に多くの関心があると思っています。そこにはHadoopプロジェクトを実施している企業が多くあります。私は、comSystoがHUGのスポンサーになり定期的に企画してくれて非常に感謝しています。comSystoは最高の企業であり、従業員や経営者は本当にすばらしい人達です。

Drillについてさらに詳しく知りたい人はプロジェクトのウェブサイトを御覧ください。
ユーザー・グループでのM.C. Srivas氏の講演のスライドはこちらにございます。

こちらの記事もおすすめです