HadoopTimes

実践 機械学習:レコメンデーションにおけるイノベーション
製品情報

Hadoopをさらに加速させる革新的テクノロジーMapR

この内容をPDFで読む

[PDF] Hadoopをさらに加速させる革新的テクノロジーMapR

企業向け用途に必要な機能や性能を網羅した完全なApache Hadoop向けディストリビューション

APACHEHADOOP ANDOSSECOSYSTEMMapRは、HiveやPig、Oozieといったエコシステムについて検証したうえで製品パッケージとして提供されます。また、企業利用を見据え、優れた運用性に焦点をあてた革新的なアーキテクチャーをApache Hadoopにもたらします。さらに、MapRの最大のポイントである100%標準Hadoopインターフェイスを備えた先進的なデータ基盤は、圧倒的な高いパフォーマンスはもとより、高可用性や障害回復、セキュリティ、データ保護などの企業向け機能を提供します。読み書き可能なNAS(Network Attached Storage)としてHadoopに容易にアクセスすることを可能にしています。

cata-image1

Hadoopの課題を根本から見直しアーキテクチャー設計と再実装を実現

cata-image4MapRは、企業システムに必要不可欠な信頼性や運用性、そしてパフォーマンスを考慮しApache Hadoopと100%の互換性を保ちながら、アーキテクチャーを設計・再実装しました。たとえば、Hadoopでデータを保管するHDFSは、Javaで実装されています。MapRではC/C++で実装することで、いつ実行されるかわからないJavaガベージコレクションを避けられます。それ以外にも数多くの機能やツールを用意することで企業レベルに必要なHadoop環境を提供しています。

cata-image3

Performance – パフォーマンス

アーキテクチャー設計・再実装によるハードウェア性能の限界に挑む

ファイルシステム、Map/ReduceのC/C+再実装によるオーバーヘッドの軽減

cata-image5MapRはHadoopのMapReduce処理において世界最高のパフォーマンスを実現します。MapRはMinuteSortの世界記録を保持しています。このベンチマークでは、1分当たり1.5TBのデータをソートしました。 以前のHadoopの記録は600GB以下でした。MapRは、C/C++で構築され、分散メタデータを利用した先進のアーキテクチャにより、最適なシャッフルプロセスを実現し、一貫して高いパフォーマンスを提供します。

ダイレクトシャッフルによるシャッフルの最適化

cata-image6MapReduce の特徴は、MapとReduceの各ステップで並列処理が可能なことです。Apache Hadoopの場合、HTTPによるテキスト転送でありファイル転送が完了するまでマージ処理を開始できません。これに対して、MapRに場合RPCによるバイナリストリーム転送(圧縮転送)を行うだけでなくファイル転送の完了を待たずにマージを開始します。また、MapRでは、テンポラリファイルの場合が不要なのでディスクI/Oが少ない特長があります。

分散Name Node(CLDB)によるボトルネックの解消

cata-image7MapRのコンテナアーキテクチャは、NAS、SAN、HDFSと比較して、メタ情報の扱いに多くの優れた点があります。従来のNameNodeで管理されていたデータは、MapRではクラスタ全体に分散して格納されます。また、NameNode内に存在した機能すべてを通常のクラスタノードに移動しました。MapRディストリビューションの「No NameNode」 ソリューションによってすべてが三重化され、極めて信頼性が高くなっています。

こちらの記事もおすすめです