HadoopTimes

実践 機械学習:レコメンデーションにおけるイノベーション
最新動向

Apache Drillは次なるマイルストーンへ

Apache Drill

2013年11月のアルファマイルストーンリリースに引き続き、オープンソースインキュベータープロジェクト Apache Drill は次期マイルストーン、1.0ベータリリースに向かって順調に準備が進んでおります。実際に4月24日の hack-a-thon へ参加することで、このプロジェクトに参画することも可能です。今日、私達Drill コミュニティーがこのプロジェクトにおいて達成した進捗をご報告します。そして、1.0ベータマイルストーンを達成するにあたっての次なるステップを解説します。

プロジェクトをご存じない方のためにご説明しますと、 Drill はビッグ・データ探究のための、 Apache オープンソース SQL クエリエンジンです。詳細については以下の記事をご覧ください。
Apache Drill:大規模でインタラクティブなアドホック解析

インタラクティブなSQLは、Hadoop の重要な使用ケースとして発展してきました。より多くの組織が、SQLスキルセットをもつビジネスや技術ユーザーに対してHadoop データを広く提供を行い、Hadoop を既存の BI / 解析ツールセットと統合して意志決定の改善とコストの減少を図ろうとしています。

Apache Drill はその根本的な設計段階から、最新のビッグ・データアプリケーションから来る半構造化/ ネスト化された、そして急速に変化するデータに対する高性能分析をサポートすることを目的としています- 同時に 工業規格のクエリー言語となっているSQL言語の親しみやすさと既存ソフトウェアとの対応も目標としています。さらに、 Drill は現存の Apache Hive と Apache HBaseの 実装に対して、プラグ・アンド・プレイで統合できます。

Apache Drill の現状は?

Apache Drill は非常にアクティブな参加者の働きを通じて、広いコミュニティで開発されている状態にあります。Drill 参加者による継続的な開発により 、主要な機能の数点がここ数カ月の間に完成しました。
これらの機能は次の通りです。

  • Hive metastore で定義されたテーブル / ビューについて Drill のクエリーを行なう
  • Hive SerDe との統合化により、すべての Hive ファイル形式からデータを照会する
  • Drill のクエリーで Hive UDFs を使う
  • HBase テーブルから直接クエリーする
  • JSON とテキストファイルフォーマットのサポート
  • SQL データの型と関数
  • ハッシュ集約
  • 分散クエリの実行
  • 様々なパーフォーマンス最適化

現時点で、これらの機能を備えた Drill を試すことができる公式のマイルストーンリリースはありません。ベータバージョンはまもなくご提供できますので、それまでしばらくお待ちください。

すぐにも使ってみたい、あるいはプロジェクトに貢献したいという興味を持った方は、プロジェクトをダウンロード、コンパイルを行うことでDrill を試用できます。しかしながら、Drill のコードは急速に変化している点には注意してください。常に新機能やバグ・フィックスが加えられているので、ベータ・リリースまでは安定性や使用準備ができていることには期待しないでください。

私たちは同様に Apache Drill Wikiに関しても、利用可能なドキュメンテーションの拡充に取り組み始めました。Drill を始めるのためには、「10分間でわかる Apache Drill」をお読みください。
もし、Drillコミュニティの進捗に関してさらにお知りになりたい場合は、Bay Area Apache Drill User Group のミートアップビデオをご覧下さい。

次のステップは?

Drill の次のマイルストーンは1.0ベータです。Apache Drillコミュニティは次の二ヶ月内にこのマイルストーンを達成できるよう、準備を整えています。そしてベータリリースに関する詳細な情報はまもなく発表されます。
1.0ベータのために拡充している機能は以下の通りです。

  • SQLクエリの待ち時間低減
  • 自己記述式、またはスキーマのないデータファイルやHBaseに対して動的クエリーを行う方法。(メタデータ定義を不要)
  • ANSI SQL
  • Nested データサポート
  • Apache Hive との統合化(Hive テーブル / ビューに関するクエリー、すべてのHive ファイル形式と Hive UDFs のサポート)
  • BI / SQL ツールの統合化、標準的な JDBC / ODBC ドライバ

どうやって参加できますか?

Apache Drill の開発に寄与するいくつかの方法があります:コードを書くこと、 JIRAs を修正すること、テスト、ドキュメンテーションに寄稿する、など。ベータが近づいていますから、もう1つ貢献する方法は、 Drill を実際の使用ケースに基づいてテストするため、あなたの環境におけるテスト・クエリーを提供することです。

Drillを使用する、あるいは開発に貢献することにご興味がある場合は、以下のリンクをご覧ください
Apache Drill ユーザグループに参加:使用開始するよい方法のひとつはミートアップに出席して、Drillの新展開について聞いたり、アイディアを交換したりすることです
Apache Drill プロジェクトを実際にご覧になる
他の参加方法
ツイッター上で Apache Drill について知る
メーリングリストあるいは Google+ Hangout に加入:もし、 Drillの機能についてより詳しく知りたい場合は、メーリングリストあるいは週に1度のGoogle Hangoutに参加してください。

最後になりましたが、重要なお知らせとして、4月24日には MapR で Apache DrillのHackathon を開催します。そこではほかの”ドリラー”とともに半日かけて、ベータリリースの新機能などを作ることができます。
今後の継続的な共同作業と、Apache Drillコミュニティの更なる発展を、楽しみにいたしております。
- Drill チーム一同