HadoopTimes

実践 機械学習:レコメンデーションにおけるイノベーション
技術情報

MapR M7向け HPリファレンスアーキテクチャー 第1回

この内容をPDFで読む

[PDF] MapR M7向け HPリファレンスアーキテクチャー

はじめに

HPとApache Hadoopの融合により、膨大なデータを保存、管理、および処理するプラットフォームが整備され、ビッグデータからビジネスを見通せるようになります。ところが、Hadoopの展開、構成、管理、監視は非常に複雑です。この記事では、各種サイズのHPインフラストラクチャ上でApache HadoopクラスターのMap R M7ディストリビューションを展開する場合のパフォーマンス最適化構成について説明します。この構成により複雑さを大幅に軽減し、機能性とパフォーマンスを格段に向上させることができます。

構成はMapR M7エディションとHP ProLiant SL4540 Gen8サーバープラットフォームを基盤としています。この記事で説明する構成は、HPとMapRが共同で設計と開発を行い、パフォーマンス、ストレージ、コストのバランスがとれたHadoopソリューションを実現したものです。

これらの構成はビッグデータのさまざまなワークロードに対応することを目的としています。HP ProLiant SL4540は、最高のパフォーマンス、生産性、費用対効果を超高密度構成にまとめたサーバーです。実際に、2013年4月に行われた直近のテストにおいて、HPProLiant SL4540が10TB Hadoop TeraSortで世界最速を記録したことがその証明です。

HP ProLiant SL4540は、抜群の経済性、密度、および簡素性を備え、単一の42U拡張ラックに総容量1.62PB(raw容量)、27台のサーバーをサポートします。現在展開されている2Uラックマウント型サーバーと比較した場合、実質的にSL4540 Gen8サーバーの3×15構成では、42Uラックでストレージ容量が67%、計算密度が33%向上しています。

ほとんどの2U 12 LFFドライブラックマウント型サーバーでは、コア数とスピンドル数の比率を1対1に保つために、Hadoop向けには6コアプロセッサーが利用されています。SL4540 Gen8サーバーの3×15構成であれば、サーバーあたり15 LFFドライブを搭載できるため、8コアプロセッサーを利用してHadoopワークロードを処理したうえ、必要なコア数とスピンドル数の比率を1対1に保つことができます。その結果、ワーカーノードとしてSL4540 Gen8を展開すると、2U 12ドライブラックマウント型ワーカーノードと比べ、以下のようにさまざまな削減が可能です。

  • 40%のスペース減
  • 47%のエネルギー減
  • 41%のケーブル減

HPビッグデータソリューションは、ソフトウェア、サービス、インフラストラクチャ、管理を統合することにより、業界トップクラスのパフォーマンスと可用性を誇ります。しかもすべてを実績ある単独ソリューションで提供します。詳しくは、hp.com/go/hadoop(英語)をご覧ください。こうした利点に加え、この記事のソリューションには次のようなHP独自の特長も含まれています。

  • サーバー:HP ProLiant SL4540 Gen8サーバーの構成は以下のとおりです。
    • HP SmartアレイP420iコントローラー - I/Oスループット性能の向上2によりI/OバウンドなHadoopワークロード(一般的な使用事例)に対してもパフォーマンスが大幅に改善しています。JBOD構成または各種RAID構成のいずれかを選択することにより、Hadoopクラスターの耐障害性を望ましい水準に自在に設定できます。
    • 3×15構成 - 2ソケットの8コアプロセッサーとインテル®C600シリーズチップセットを搭載したHP ProLiant SL4540 Gen8の3ノード構成。シャーシ内に3基のコンピューティングノードと合計45台のラージフォームファクタ(LFF)3.5インチ型ハードディスクドライブ(HDD)を装備します。デュアルソケットGen8サーバーのHP ProLiant SL4540は、各ノードで数種類のインテルXeon®から選択でき、最大メモリは192GB、1つのPCIe拡張スロットを有します。すべてのコンピューティングノードには専用ネットワークポートも付属しています。また、本製品はInfiniBand インターコネクトをサポートします。詳細については、製品ページwww.hp.com/jp/proliantを参照してください。
    • サーバーに搭載されるHP iLO Management Engineは包括的な組み込み管理機能で、iLO 4(HP Integrated Light-Out 4)、エージェントレス管理、アクティブヘルスシステムのほか、Hadoop環境のノードとクラスターの管理コストを軽減するHP IntelligentProvisioningなどを含みます。
    • プロセッサーには高性能と優れた電力効率を誇るインテル®Xeon®プロセッサーE5v2ファミリーを採用しています。
  • ネットワーキング:HP 5900スイッチシリーズは、高密度、超低レイテンシのTOR(Top of Rack)データセンタースイッチです。大規模エンタープライズデータセンターのサーバーアクセスレイヤー展開または中規模エンタープライズのデータセンターコアレイヤー展開に適しています。また、HP 5900AF-48XG-4QSFP+スイッチは、48個の10Gb SFP+ポートと4個の40Gb QSFP+ポート(超大容量接続用)を搭載しています。1U設計に高密度の48個の10GbEポートが装備されたHP 5900AFは、サーバーエッジ10GbE ToRスイッチの展開を飛躍的に広げています。高密度サーバーポートが4個の40GbEアップリンクで補強されることで、要求の厳しいアプリケーションの帯域幅要件にも対応できるのです。さらに冗長電源装置および交換可能なファントレイで最高の可用性を発揮します。
  • 管理:HP Insight CMU(Cluster Management Utility)はプッシュボタン式のスケールアウトとプロビジョニングに加え、業界トップレベルのプロビジョニングパフォーマンス(800ノードの展開が30分)を誇り、展開を数日から数時間に短縮できます。また、インフラストラクチャやHadoopに対して3Dビジュアル化によるリアルタイムと過去の監視が可能です。その結果、Hadoopワークロードやクラスターパフォーマンスの特性を簡単に評価でき、加えて複雑さの軽減やシステム最適化の向上が高パフォーマンスやコスト削減につながります。HP InsightマネジメントとHP Service Pack for ProLiantを使用すると、ファームウェアとサーバーの管理が容易になります。

これらすべての機能は、HPのサーバー、ストレージ、ネットワーキングのバランスよい構成と、組み込み管理ソフトウェアやバンドルサポートを反映しています。

また、この記事は、各種サイズのクラスターにおいてHPインフラストラクチャ上でのMapR M7ソフトウェアの迅速設計と迅速展開を支援するためのものです。さらには、調達プロセスを簡素化するために、ソリューションに必要なソフトウェアとハードウェアのコンポーネントを明確にすることを目的にしています。推奨されるHPソフトウェア、HP ProLiantサーバー、HP Networkingスイッチと各構成については、各種のI/O、CPU、ネットワーク、メモリバウンドなワークロードで入念なテストを実施しています。この記事で説明する構成は、MapReduceとHBaseの計算性能において最高水準といえるものです。

対象読者: この記事は、HPおよびMapRソリューションの設計または購入の時間短縮に関心のある意思決定者、システムアーキテクト、ソリューションアーキテクト、システム管理者、熟練ユーザーを対象としています。Apache Hadoop、ネットワークアーキテクチャー、スケールアウトインフラストラクチャについてある程度の知識が必要とされます。これらのトピックについてすでに専門知識をお持ちの方々は、すぐに「展開前の考慮事項」に進んでください。

こちらの記事もおすすめです