HadoopTimes

実践 機械学習:レコメンデーションにおけるイノベーション
ソリューション

ビッグデータのハードウェアTCOをHadoopで削減する

Apache Hadoopはデータ管理または保管、加工ならびに分析能力の柔軟性を改善することでROIに貢献していることは間違いない。また、「コモディティ」サーバーを費用削減と解釈するするのは理に叶っている。しかし、Hadoopが相当な費用削減と収益の増加をもたらすことができる一方で、多くが実際の配備に依存していることが現実である。

あらゆる分散システムの実際の総保有コスト (TCO) は、アーキテクチャと運用に問題のないIT業務に依存している。ハードウェアの購入ならびに維持管理の費用以外に、真のTCOにはパフォーマンス、信頼性及びスケーラビリティが重要である―動作が遅く不安定なシステムは物理的な構造ほど費用がかからない可能性もあるが、企業の経常費用のリソースならびに資本を減耗させることになる。

Hadoop自体がデータ管理を高速に、簡単に、また、安くする魔法のソリューションであるわけではない。Hadoopを導入した場合のアーキテクチャがもたらす変化として企業のTCOが20%から25%削減されている。

自社が導入しているHadoopを把握する

Hadoopは特定のニーズを満たすため作られた。YahooやFacebookのような企業は、ウェブ上で拡大し成功するため、とても大規模な異種のデータセットに効率的に対処する方法を必要であった。Hadoopがそのソリューションだった。

オープンソース・コミュニティはデータインテンシブな利用の状況に対応するため、様々なHadoopならびにそのプラットフォーム用のアプリケーションの開発をさらに進めた。Hadoopがユーザーを獲得するにつれて、Hadoopの並列処理アーキテクチャのパフォーマンスを改善しながら費用削減のためプラットフォームを調整及び改良する方法に注目が移った。ミッションクリティカルなビジネス利用の場合には、Apache HadoopのNameNodesへの依存とリードライトのファイルシステムの欠如が、スケーラビリティ、信頼ならびにパフォーマンスの点で問題を生んだ。MapRはHadoopをエンタープライズ対応にし、単一障害点、つまりNameNodeを除去するファイルシステムを作成した。

データ保管費用のみを考えると、HadoopがTCOに生み出す違いは顕著である。データウェアハウス内にデータを保管する平均費用はテラバイト当たり1万ドルを超える。最新の企業向けHadoopの導入費用はテラバイト当たり1000ドル未満である。だがどのようにしてそのデータが利用されるのだろうか?

Hadoopの最大のTCO削減の1つがNameNodeの使用である。NameNodeはクラスター中の全てのDataNode上に保管される情報に関するメタデータを保持している。この構造がビジネスの莫大なデータアクセスのボトルネック、さらには、1000万個のファイルを加工する単一のジョブがクラスター全体を作動不能にする可能性のある単一障害点を作り出している。

後者の問題には回避策がある。ジャーナリングNameNodeコンセプトを実装することで単一障害点を取り除くことができる。残念ながらこの設定は複雑な手順で、ハードウェアへの追加的投資も必要であり、また、これは加工におけるボトルネック問題には効果がない。この問題を難なく解決するには、MapRのような分散型メタデータアーキテクチャに有利なNameNodeを伴わない製品を探すとよい。

NameNodeはまた、Hadoopのスケーラビリティにも影響を与える―単一のクラスターはNameNodeの規模までしか利用できず、つまり、確実にブロックの最適な活用を行うには多くの時間、リソースならびにスキルが求められる。適切に管理されなければ、1メガバイトのファイルが2ギガバイトのブロックを使用する可能性がある。だが、スケーラビリティの問題を避けるため圧縮またはシーケンス処理を行うと、データが分析時に利用できる状態ではなくなる恐れがある。

最新のエンタープライズ対応のHadoopはブロックサイズの制限ならびにクラスターが管理可能な合計ファイル数の制限を撤廃している。これはまたリードライトのファイルシステムを活用し、高い利用性と短い待ち時間を実現している。

TCOとしての評価

企業利用としてHadoop製品を評価する場合、ハードウェアの価格とは別に、セットアップと維持管理時の要素が伴う。本質はつまり、少ないハードウェアでより高いパフォーマンスを実現する製品である。オペレーションと分析を同じプラットフォーム上で実行でき、大容量のデータの管理をより容易にすることで大容量に対応する製品を探すべきである。

また、Hadoopの配備が強力なTCOを継続的に実現することを可能にする機能を重視するべきだ。例えば、(Hive、SparkならびにFlume他の単一バージョンではなく) 重要なHadoopコンポーネントの複数のバージョンならびにApache HadoopのAPIをサポートする製品により今後の強制アップグレードを回避することができる。

評価を行おうとしている製品が自社のデータを排他的なデータフォーマットに対応するものにしない製品であることを確認するのが望ましい。また、多くの企業がNFSと共に機能するアプリケーションを活用しているため、すでに企業として有するスキルならびにソリューションを活用するために、完全なNFS互換性を重視すべきである。

自社のCluster、自社のTCO

前述した情報は、必然の一般的な性質である。様々なシナリオにおける多大な変化の中で自身のデータを使用してHadoop製品のTCOを測りたい場合は、このTCO Calculator for Hadoopを使用して行うことができる。見込みのデータ量、ファイル数ならびに年間データ増加率を入力するだけで、ハードウェア費用、ソフトウェア費用、人件費ならびに関連する問題にまたがる変数を変化させることで様々なシナリオ評価をすることができる。

著者情報

JimScott

ジム・スコット

(MapR Technologies エンタープライズ・ストラテジー&アーキテクチャー・ディレクター)

 

Hadoop導入ガイド

Hadoop導入ガイド
初心者からプロフェッショナルまでHadoopを採用する上で知っておきたい情報を資料にまとめました。

この導入ガイドは、これから長年にわたって組織を支え続けることになるHadoopインフラを選択する指針となるべき一連の情報をご提供し、お客様がHadoopプラットフォームを検証・評価する際に、提案依頼書(RFP)に具体的に内容を盛り込んでいただけるよう構成されています。

無料ダウンロードはこちら

こちらの記事もおすすめです