HadoopTimes

ストリーミングアーキテクチャ Apache Kafka とMapR Streams による新しい設計手法
技術情報

MapR 統合プラットフォーム

ビッグデータアプリケーションのための統合プラットフォーム

MapRであれば、処理のためにデータを特別な場所へ移動する必要はありません。データはそのままの場所で処理可能です。実際に、MapR では ”Polyglot Persistence(多言語対応)” のコンセプトを基にMapRプラットフォームを開発しています。よって、利用者のユースケースに応じて様々なデータタイプやフォーマットを直接扱うことが可能です。MapR ディストリビューションの統合アーキテクチャは、ファイルやテーブルへの直接処理を可能にしているだけではなく、POSIXに準拠した業界標準のNFSサポートによって、既存の企業アプリケーションも容易に対応させることができます。

MapRは、様々なアプリケーションとユーザをサポートするために、エンタープライズ用途に必要とされる豊富な機能を提供します。これらの機能には、高可用性に関する機能やデータ保護、ディザスタリカバリ、マルチテナントやボリューム機能、アプリケーションが高性能のCPUやSSDドライブを選択して利用可能なデータとジョブの配置管理機能、異機種環境でのクラスタサポートなどが挙げられます。

主な特長

MapReduce

MapRはHadoopのMapReduce処理において世界最高のパフォーマンスを実現します。MapRはMinuteSortの世界記録を保持しています。このベンチマークでは、1分当たり1.5TBのデータをソートしました。 以前のHadoopの記録は600GB以下でした。MapRは、C/C++で構築され、分散メタデータを利用した先進のアーキテクチャにより、最適なシャッフルプロセスを実現し、一貫して高いパフォーマンスを提供します。

ファイルベースのアプリケーションへの対応

MapRは100%POSIXに準拠したシステムであり、ランダムリード/ライト処理を完全にサポートしています。業界スタンダードのNFSをサポートする事により、ユーザはMapRクラスタを容易にマウントでき、クラスタにあるデータに対して、様々な言語で開発されたファイルベースのアプリケーションを実行できます。企業にある全ての標準的なツール、例えばブラウザ、UNIXツール、スプレッドシート、スクリプト等がカスタマイズなしにそのままクラスタにアクセス可能です。