HadoopTimes

実践 機械学習:レコメンデーションにおけるイノベーション
最新動向

Spark on Hadoopが重要な理由

最近、MapR TechnologiesのCTOであり共同創業者のM.C. Srivasは、Spark Summit 2014において「Spark on Hadoopが重要な理由」について発表しました。インメモリ・プロセシング・フレームワークを備えたSparkは、Hadoop上で補完的なフルスタックを提供し、これはMapRの顧客にとってすばらしい兆候を示すものです。M.C. Srivasはこのような使用例のいくつかを提示し、SparkとHadoopの統合がどのようにして、そしていつ、エンドユーザーへ最善の価値をもたらすのか、議論しました。

この発表のいくつかの要点は、次のようなものです。

  • Apache HadoopとOSSエコシステムは急速に進化しています。MapRはHadoopエコシステムの多くの部分を、MapRデータプラットフォームの一部として提供しています。
  • より簡単なAPIやPython、Scala、Javaの強力なサポートによる開発しやすさを含め、Sparkには多くの利点があります。加えて、SparkはRDDs(Resilient Distributed Datasets)へ書き込みをしており、これはインメモリに存在し、信頼性の問題を解決するものです。Sparkに関して、もう一点画期的なのは、DAGs(Directed Acyclic Graphs)をまたがるインメモリ・データのシェアをサポートしている点であり、これは、異なる作業が同じデータと一緒にすばやく働くことを可能にします。Sparkのライブラリには、グラフ・プロセシング、MapReduce、SQL、機械学習といった、多くのプロセシング・モデルが含まれており、これらのモデルはすべてDAGsを用いて統合することができます。
  • HadoopはSparkを補完する利点をもたらします。例えば制限のないスケールなどが含まれており、これは複数のデータソース、アプリケーション、そしてユーザーを順応させるものです。Hadoopは、ファイル、データベース、そして半構造化データを処理することができる幅広いアプリケーションを備えた、複数のテナントを持ち、信頼性のある、企業向けプラットフォームへと成長しました。SparkとHadoopの組み合わせは、以前Hadoop上でバッチ処理とされていたものを、インメモリ・プロセシングによって拡張されるオペレーショナル・アプリケーションへと移行することを可能にします。さらに、該当するデータへの洞察を即時に得るために、異なる種類のワークフローを簡単に組み合わせることができます。

Sparkの使用例には次のようなものがあります。

  • 業界を率先する広告ターゲティングプラットフォームはMapR M7を使用して、1日あたりのグローバルトランザクションが1000億件にものぼるリアルタイムオークションを毎日、同社の世界的な取引プラットフォームで処理しており、これは約3.5ペタバイトのデータの管理と分析の必要性を意味しています。同社はM7のテーブルからRDDへとデータを読み込み、スコアリングをリアルタイムで拡張しています。
  • 大手製薬会社は、Sparkを用いて、遺伝子の配列解析能力を向上することで、より素早い市場展開をするという結果を得ています。Spark使用前は、化合物と遺伝子を配列するのに数週間かかっていました。SparkでADAMを実行することで、遺伝子の配列をほんの数時間でできるようになりました。
  • CiscoはMapR M7とSparkを元にして、同社のセキュリティ・インテリジェンス・オペレーションを実施しています。M7のセンサー・データ・ストリームおよびSparkのストリーミングは、既知の脅威に関する最初のチェックを行うために使用されています。次に、該当データはGraphXとMahout上で処理され、データに関連付けが行われ、結果はSharkおよびImpalaを通じ、SQLを用いて照会されます。
  • 健康保険会社は、M7を使って患者情報を保管しており、これは 再入院の確率を計算するための医療情報と組み合わされています。

要約すると、Spark on Hadoop はリアルタイム・アプリケーションに、けん引力を与えるということです。その仕事にあった正しいツールを選ぶことが重要なため、MapRはあなたに全Hadoopスタックを提供いたします。あなたが求めているのがSpark、Shark、Impala、Drill、あるいはHive/Tezであれ、MapRはこれらを同一のクラスタ上で同時に提供します。

こちらの記事もおすすめです