HadoopTimes

技術情報

“分析”よりもまずは“基盤”!!ビッグデータ解析に必要な環境とは

IDC Japanの発表によると2015年の国内ビッグデータ市場規模は947億7,600万円、前年比32.3%増の高成長を見せています。2020年までに年間平均成長率25.0%で拡大し2,889億円で着地すると予測されているので、その成長スピードは凄まじいものがありますね。

それほどビッグデータが注目され、かつ今後ビジネスの中核となっていくためでしょう。

そんなビッグデータを解析する上で重要なデータ解析ですが、分析方法などを確立するよりもまずは基盤を整えることが重要です。ビッグデータを上手く活用できるかできないかは基盤によるところも大きいでしょう。

そこで今回はビッグデータ解析に必要な環境について紹介していきたいと思います。特に、今後ビッグデータ活用の強化が必要な中小企業目線で紹介していきますので、ぜひ参考にしてください。

そもそもビッグデータとは?

そもそもビッグデータとは単に“膨大なデータ”というわけではなく、「3V」という定義が存在しているのをご存知でしょうか?この「3V」とは「Volume」「Velocity」「Variety」の頭文字を取ったものであり、それぞれがビッグデータの特性を表しています。ちなみに「3V」を定義したのは米調査会社ガートナーのアナリストであるダグ・レイニー氏であり、未だにこの定義が浸透しています。

Volume:データ量

ビッグデータとは膨大なデータ量のことを指すことが多いですが、必ずしも“ビッグ”というわけではありません。要は、データ解析を用いてビジネスに有用な知見を見出すために必要はデータ量というのが正しい認識です。

母数ばかり確保しても正確性などが確保されていなければ、データとして価値はないのです。

Velocity:データ速度

データ速度とは「データ入出力の早さ」としてシステム的な定義を指すものですが、これは言い換えるならば“データのリアルタイム性”と捉えることもできます。

データとは時間が経過するほど価値が低下するものもあり、現状データを迅速に分析する環境が必要です。ビッグデータ解析においてはこのVelocityが他の要素よりも重要になるでしょう。

Variety:データ範囲

データは多角的なほど新しい知見を見出すのに向いています。従ってビッグデータ解析では単一データよりもバラエティ豊富なデータがベストです。

以上がビッグデータの定義「3V」ですが、最近ではこれに「Veracity:データ正確性」を足した「4V」も浸透しています。

リアルタイムに解析でいる環境を重視する

先ほど紹介した「3V」の中でも最も重要な「Vecrocity(データ速度)」ですが、データのリアルタイム性と言い換えることができると説明しました。中小企業のビッグデータ解析環境ではこのリアルタイム性を中心に据えた考え方が重要でしょう。

では、リアルタイムなビッグデータ解析を実現できる環境をどのように整えればいいか?それは、膨大な量のデータ群をより高速に処理するためのソリューションを導入することです。

例えば、通常6時間程度かかるデータ処理がたったの5分で完了するとしたら?ほぼ丸1日かかるバッチ処理を数時間で終わらせることができるとしたら?企業は常に“新鮮な”データ解析を行い、ビジネスやマーケティングにとって有用な情報を効率的に導き出すことができます。

中小企業において丸1日かかる処理のデータ量というのは稀ですが、数時間やそこらのデータ量であれば珍しいことはありません。ですので、まずは大量のデータ群をよりリアルタイムに分析するためのソリューションが必要です。

Hadoopが実現する高次元なデータ処理

Hadoopというオープンソースのデータ処理システムをご存知でしょうか?今やビッグデータ解析の中心となっているのは、このHadoopだと言っても過言ではありません。

通常、データ解析環境と言えばRDBS(リレーショナルデータベースシステム)を用いてデータの処理を行っていくわけすが、I/Oのボトルネックが大きいことでサーバのCPUを使用し切れないというデメリットがあります。いわば、リソースを最大限に活用し切れていないという状況です。

Hadooとは、こうしたRDBSのデメリットを解消しつつ、大量のデータをより高速に処理するための並列分散処理フレームワークです。安価なサーバを複数連携させ、並列分散処理を実現させることでデータ解析速度を高めるだけでなく、サーバリソースを最大限に活用するとができます。

つまりHadoopにより“資源の無駄使い”も防止することができるというわけです。

さらに高速なデータ処理環境を実現するMapRへ

Hadoopはオープンソースで提供されているシステムであるからして、そのアーキテクチャをベースに提供されているソリューションがいくつかあります。そしてMapRはその中の一つです。

簡単に言えばHadoopでネックになっていた部分を解消し、企業のビッグデータ解析においてより実用的に再実装された製品といったところでしょう。

中小企業がビッグデータ解析基盤を作る上で、Hadoopをそのまま導入するよりもMapRで導入する方がいいのはなぜでしょう?その理由をいくつか紹介していきます。

ランダムな読み取り/書き込み可能なPOSIX対応NFSアクセス

高性能かつランダムな読み書き機能を提供し、データ処理の際中においてもHadoop上へのビッグデータ書き込みを可能にしまう。

マルチテナント

クラスターの一部を専有、あるいはマルチテナントによるリソースの共有など、要件に沿った柔軟なシステム構成を実装可能です。

ネイティブファイルシステム

ネイティブファイルシステムを採用することで、HadoopやOSのファイルシステムよりも高速なアクセスを実現しています。

ダイレクトシャッフルによる最適化

MapReduce処理では、全ファイルの転送を待つことなくソート処理が開始可能になり、さらに高速な分散処理を実現。

スナップショットによるデータ保護

任意の間隔でスナップショットを作成することにより、セキュリティ性の向上やその他の目的に利用可能です。

ミラーリングによる簡単バックアップ

定期的、あるいはオンデマンドでバックアップを行うことによりシステムの可用性を保つことができます。また、災害時のBCP(事業継続計画)対策にも最適です。

このように、MapRではHadoopよりも高次元のデータ処理や、システムのセキュリティ性・可用性などを確保することができます。Hadoop自体でオープンソースでとても素晴らしいシステムなのですが、ひと手間加えることでより実用的なソリューションへと引き上げることができるのです。

まとめ

いかがでしょうか?今回は中小企業視点でビッグデータ解析に必要な環境について紹介しましたが、重要なのはやはりリアルタイムにデータ解析を行える環境を整えることです。

そのために、高速なデータ処理ソリューションを導入することはやはり不可欠と言えるでしょう。

皆さんはどのようなデータを、どのようにして解析していきますか?目的に沿ったビッグデータ解析を実現するためにも、分析環境を整えることにこだわっていただきたいと思います。

「いまさら聞けない」データ分析の総ざらい

「いまさら聞けない」データ分析の総ざらい
昨今、「データ分析」の重要性が強く叫ばれています。ただ、それはアナリストやデータ・サイエンティストと呼ばれる“専門家だけが担うことができる難解なもの”という誤解を持たれてはいないでしょうか。

データ分析という手法は、IT のパワーを活用することで、どんな企業も導入・実践することができる“現実解”なのです。

データ分析とはいかなるものなのか――。

この資料では、これからデータ分析を始める方や始めたが、もう一度初歩知識を復習したい方々向けにデータ分析の基本を解説します。

無料ダウンロードはこちら

こちらの記事もおすすめです