HadoopTimes

ストリーミングアーキテクチャ Apache Kafka とMapR Streams による新しい設計手法
技術情報

Hadoop 業務利用時の課題

開発環境下でのHadoopのテストと、様々な業務システムが導入されたデータセンターへの Hadoop アプリケーションの展開は、全く異なります。SLAの維持、信頼性、セキュリティ、ディザスタリカバリへの対応は必須です。MapR の Hadoop ディストリビューションは業務環境での課題を以下のように解決します。

主な特長

ミッションクリティカルなアプリケーションを支える信頼性の高いアーキテクチャ

MapRは、全てのApache Hadoopプロジェクトに高可用性(HA)を提供する唯一の Hadoop ディストリビューションです。だからこそ、アプリケーションをその上で動かし、ビジネスに必要な洞察が得られるのです。MapR は 99.999%という極めて高い可用性と、データのポイントインタイムリカバリ、ディザスタリカバリ機能を提供します。MapR は、ノード障害やMapReduce障害、データアクセスポイント障害からの保護のため、 Hadoop のあらゆるレイヤーで冗長化を実現しています。

シームレスなデータアクセスとインテグレーション

MapRは、HadoopをNFS経由でアクセス可能なNAS環境として提供可能な唯一のディストリビューションです。これによりデータアクセスや移動のために多数のステップを踏む必要がないため、データ管理とシステム運用が合理化できます。ユーザはMapRクラスタをマウントすることでデータの直接取り込みや、ランダムリード/ライドなど従来と同じファイルシステム操作が実行できます。また、何千もの既存の企業ツールが直接Hadoop上のデータにアクセスすることが可能です。さらに、Hadoopと既存のデータ基盤とのシームレスな統合の障害となる、パフォーマンス上のボトルネックや、追記しかできないファイルシステムも存在しません。

運用管理コストの削減

icon1-changing-the-economics-of-your-data_0MapRは、1つの統合プラットフォーム上でオンラインとバッチ処理を同時に実行できる信頼性の高いHadoop環境を提供します。多くのアプリケーションを、1つのHadoopクラスタ上で実行できるため、運用コストを抑えることができます。MapRアーキテクチャは、高い信頼性とパフォーマンス、管理性により、ファイルとテーブルのデータを最高レベルで扱うよう最適化されています。 MapRは世界で最大規模のHadoopクラスタを単一で本番運用することが可能です。

  • リニアな拡張性でHDFS内のファイル数の上限は1億以上。
  • 分散メタデータアーキテクチャにより、1兆以上のファイルやテーブルに対応。単一クラスタ上でペタバイトクラスのファイルを数千処理可能。
  • ファイルや表を同じ分散ストレージ・レイヤで処理するため、NoSQLやHadoopのアプリケーションを単一プラットフォーム上でシームレスに動作させることが可能。