HadoopTimes

実践 機械学習:レコメンデーションにおけるイノベーション
技術情報

Hadoopディストリビューション選択時の4つのポイント

正しいHadoopディストリビューションを選ぶことは難しい作業です。自分たちのデータインフラにHadoopを導入しようとする多くの企業は、実際に各ディストリビューションがどう違うのか把握することに苦心しています。とても多くの選択肢がある中で、間違った選択をしてしまうことも多々あります。

ビジネスが求めるべき特定の適格基準には4つのカテゴリーがあります。それらの4つのカテゴリーを確認し、選択肢を絞っていく際に必要なポイントを見てみましょう。

1.パフォーマンス

Hadoopは多くのビジネスが選択するデータプラットフォームですが、それは特にHadoopスタックのMapReduceを、物理エンジンをプロセッシングするApache Sparkデータに置換する場合のパフォーマンスの高さがあるからです。
しかし、全てのディストリビューションがApache Sparkをもってしても、同程度のパフォーマンスレベルを発揮するわけではありません。あるディストリビューションは他よりも、利便性を (低いハードウェアでも) 高め、非常に大量のデータを取り扱い、高いレベルのパフォーマンスを保つことができます。では、それぞれのHadoopディストリビューションを評価する際に注目すべきことは何でしょうか。

一貫したローレイテンシー

多くのディストリビューションは、ローレイテンシーによる高いパフォーマンスを宣伝します。しかし知られたくない事として、かなり頻繁にこのレイテンシーが予測できないという事実があります。
このパフォーマンスクオリティの不安定さは、信じがたいほど一定してないことがあります。POCをセットアップする際には、このことを頭に入れておくべきでしょう。

分散メタデータ

企業レベルで機能するHadoopディストリビューションの能力を決める要因は、どのようにそのファイルシステムアーキテクチャが構築されたかということです。注目すべきファイルシステムの1つの重要な要素は、メタデータの管理方法です。最も柔軟で、拡張性があり信頼できるHadoopファイルシステムのバージョンは、ノード間でメタデータを分散しています。これによって、20倍以上のパフォーマンスをビジネスに提供し、最重要のアプリケーションを動かすための高い可用性のある機能を実現しています。

2.信頼性

今日データが多くのビジネスに不可欠になっていることを考えると、データ管理プロバイダーにとって信頼性が重要な優先事項になっていないことは残念なことです。ディストリビューションを探す上で、信頼性は重要な差別化要因です。以下の信頼性の機能を実際に備えるディストリビューションは極わずかですが、その全ては優先事項リストにおいて必要不可欠なものです。

高い可用性

Hadoopディストリビューションによる高可用性は、他にはない特徴です。99.999%のシステムアベイラビリティを保証することができるディストリビューションは極めて少数です。プロバイダーが本当のHAの機能性を与えることを確かめるために、以下の7つの機能があるかどうか確認しましょう。

  1. 自己回復 – 人間が介入する必要がなく、速やかにシステム障害を解決する。
  2. 障害時にダウンタイムがない – どんなことがあってもシステムが稼働し続ける。
  3. 複数の障害にも耐える – システム障害の管理処理能力を、管理者の選択でコントロールすることができる。
  4. 100%コモディティハードウェア – 市販のNASを必要としない。
  5. HAハードウェアの追加を必要としない – システムは標準的なコモディティハードでHA性能を実現すべき
  6. 使用が簡単 – HAが組み込まれている
  7. データ保護

Hadoopでのデータ保護は様々な方法で行えます。最も先進的なディストリビューションは、Snapshotリカバリーシステムを信頼しています。これらのポイントインタイムSnapshotは、システムの減速を防ぐために、実データと同じストレージを活用することになります。さらに、オープンなものとクローズドの両方のデータを保存することになります。Hadoop Snapshotシステムのいくつかのバージョンは、クローズドのデータのみを扱いますが、それではバックアップデータの完全性を危険に晒すことになります。

障害回復

ミラーリング技術は、企業レベルのHadoopユーザーが選択する障害回復方法です。ミラーリングによって、システムは自動的に壊滅的なシステム障害からそれが通知される前に回復することができるでしょう。

3.扱いやすさ

Hadoopはユーザーフレンドリーなデータ管理システムに進化しました。それぞれのディストリビューションはこれを実行し、Hadoopの管理可能性を異なる管理ツールを通して最適化してきました。管理、トラブルシューティング、適任者の職場配置および管理を行う上で役に立つ直感的な管理ツールがあるディストリビューションを探しましょう。

4.データアクセス

データを集め保存することは、Hadoopに関することではほんの第一歩にすぎません。最大限全てのデータの価値について考える上で、簡単で安全なアクセス可能性は重要です。データアクセスを構築するいくつかの重要な基盤を見てみましょう。

  • HadoopファイルシステムAPIへの完全なアクセス
  • ファイルの読み込み/書き込み/アップデートアクセスをするフルPOSIX
  • 主要なリソースにわたるデベロッパーの直接管理
  • 安全で、企業向けの検索
  • 包括的なデータアクセスツール (Apache Flume、Apache Sqoop、Hive等)

これらの基本的機能に加え、全く難しい設定の必要がないセキュリティオプションを探してみましょう。Hadoopのセキュリティの機能は、一般的に利用可能なままですが、多くの管理者は使用していません。ディストリビューションが、Hadoopの提供の際にそれらを利用可能にすることを怠っているからです。セキュリティの機能を最大化するためには費用と時間が必要で、取っ付きにくいかもしれません。最良のオプションは、素直にこの負担を軽減してくれるディストリビューションを選択することです。

結論

Hadoopの世界はさらに拡大しています。探し求めているものが何か理解していなければ、選択肢の多さに圧倒されてしまうでしょう。それぞれ個別の基準に従い、この4つのポイントを頭に入れることで、必要とする最良のHadoopディストリビューションを探すことができる指標となることができれば幸いです。

Hadoopについてさらに詳しく知りたい場合、無料の資料 The Executive’s Guide to Big Data and Hadoopをダウンロードして下さい。

こちらの記事もおすすめです