HadoopTimes

ストリーミングアーキテクチャ Apache Kafka とMapR Streams による新しい設計手法
技術情報

Hadoop購入者向けガイド 第3回

この内容をPDFで読む

[PDF] Hadoop購入者向けガイド(PDFダウンロード)

前回の記事はこちら

管理性

Hadoopが開発されて間もない頃は、Hadoopをソースコードレベルで理解する開発者が、複数のHadoop環境を管理することはよく見受けられることでした。開発者がHadoopについての詳しい知識を持っていることや、彼らが開発と運用の双方の責任を持つという、スタートアップ企業で典型的な体制をとっていることから、当初はこれがうまく機能しました。しかし、Hadoopシステムだけでなく、その他多くの異なるシステムの全てを同時に管理することは難しく、基幹システムに同じ運用を適用することができないのは明らかです。IT部門がソリューションを比較検討する際、総保有コスト(TCO)は常に主要な考慮事項で、Hadoop環境に至ってはなおさらです。

お客様は、管理の負担を軽減するために巧みに設計された、統合的なツールを提供するHadoopプラットフォームを選択すべきです。Hadoopは成長を続けており、Hadoopディストリビューションは下記の重要な項目において、管理ツールの質と機能を競い合っています。

管理
  • ボリュームベースのデータとユーザー管理
  • 中央制御のノード管理とトラブルシューティング
  • グラフィカルユーザーインターフェース(GUI)によるディスクドライブの追加と削除
  • サービスを停止することなくソフトウェアのアップグレードを行うローリングアップグレード
  • 自動化・スケジュール化された管理作業
  • データおよびジョブ配置のコントロール機能を利用したマルチテナントユーザーアクセス
モニタリング
  • アプリケーションレベルからハードウェアレベルまで、ディスク障害検知を含む、Hadoop クラスタのエンドツーエンドのモニタリング
  • ノードの状態やメモリ、CPU、その他のメトリックスについて、カラーコード化されたリアルタイム監視を提供するアラート、アラーム、ヒートマップ
  • REST API を通じた、異なるオープンソースツールや商用ツールへの統合、ならびにカスタムダッシュボードを構築するための機能
  • Ganglia やNagios 等のスタンダードなツールを利用した可視化

最後に、Hadoop実装は、決まって数百ないし数千のノードを持つ規模になります。これら全てのノードの設定、展開、管理は、できる限り自動化されるべき定型作業です。幸いなことにオペレーティングシステムのリーダー的ベンダーは、自動設定やサービス配備・管理のソリューションを継続的に改善しています。例えば、Canonical 社のJuju は、グラフィカルユーザーインターフェースとコマンドラインインターフェースの両方を提供しており、管理者はこれを用いて分散処理環境の全ての要素を自動化することができます。