HadoopTimes

CONVERGEN TOKYO 2017
最新動向

ビッグデータ時代にクラウドが必要な5つの理由

業界や職種に関係なく、日々ビジネスの世界に身を置いている皆さんは、データが持つ重要性が高まっているのを肌で感じているのではないでしょうか?

気付けば周囲は既にデータ活用で事業成長を遂げているといった話も珍しくありません。

こうしたデータ分析が活発化している背景には、やはり“ビッグデータ”というキーワード、そして“クラウド”が大きく関わっています。

今回は2つのキーワードの基本を整理しつつ、なぜビッグデータ時代にはクラウドが必要なのかを解説していきます。

ビッグデータとは何か?

ビッグデータとはその名の通り“膨大な量のデータ”という意味がありますが、ビッグデータと呼ばれるためには以下のような3つの要素(3V)が必要だと言われています。

Volume(データ量)

データ量に明確な線引きはありませんが、従来に比べて大量のデータを取り扱うことが多くなっています。

センサーやデータ収集基盤のコモディティ化により量を確保すること自体はそう難しくありません。

Velocity(データ速度)

データ速度とはインプット/アウトプットの速度であり、ビッグデータ分析は常にリアルタイム性が求められるのです。

これはシステムに左右されるところが大きく分散処理システムなどが多く導入されています。

Variety(データ範囲)

ビッグデータ分析では単一データではなく、幅広い範囲のデータを取り扱うことで、今までにはないビジネスの知見を見出すことができます。

一つだけ注意していただきたいのが、データ分析においては必ずしも“ビッグ”である必要はないということです。

ビッグデータ分析がトレンドであり、多くの企業が成長を遂げていることは確かですが、ビッグデータというキーワードを意識し過ぎてデータ分析の本質を見失うことに気をつけなければなりません。

クラウドとは何か?

クラウドを簡単に説明すると“インターネット経由で提供されるサービス”であり、実は身近なところで多く活用されています。また、以下3つのサービスの総称として用いられています。

IaaS

“Infrastructure as a Service”の略であり、ハードウェアリソースといったインフラを提供します。

ユーザーはクラウドベンダーからCPUやメモリなどを自由に選択肢、従量課金性でリソースを利用することが可能です。

PaaS

“Platform as a Service”の略であり、インフラに加えOSやミドルウェアといった、アプリケーション稼働・開発環境といったプラットフォームを提供します。

ユーザーは素早く稼働・開発環境を入手でき、かつ必要なときだけ利用できるというメリットがあります。

SaaS

“Service as a Service”の略であり、通常はPCやサーバにインストールして利用するソフトウェアをブラウザベースで提供します。

本来PCにインストールするエクセルなどのアプリケーションを、Webサイトにサインインして利用するイメージです。

これら3つのサービスのうち、ビッグデータと密接は関わりにあるのがIaaSとPaaSです。

ビッグデータに対するクラウドの必要性

データを一か所に集約

ビッグデータとは膨大かつ多種多様なデータを、あらゆる組み合わせ分析していくので、データを常に一か所に保管する必要があります。

各所から生成されるデータを一か所に集めるためには、リソースを自由に拡張できるクラウド環境が重要なのです。

パフォーマンス低下の問題を解決

限られたハードウェアリソースの中でビッグデータ分析を行うとなると、パフォーマンス低下問題が浮上します。

高速な処理とリアルタイム性が重要なビッグデータ分析では、クラウドによるスピーディなサーバ環境構築が最適です。

運用管理業務を効率化

リアルタイムなビッグデータ分析を行うだけのインフラを整えるとなる、サーバ増設は避けて通れません。

これがオンプレミスならばその分運用管理業務が発生するので、管理者の負担になってしまいます。

クラウドならサーバの運用管理業務は皆無ですので、効率性をアップさせ管理者の負担を軽減することができます。

コスト面でのメリットが多数

基本的に従量課金制のクラウドは、初期費用というものがほとんどかかりません。数十万~数百万かかるオンプレミスと比較すれば圧倒的に初期コストを削減できます。

また、運用管理業務がないということはそこに人件費が発生しないので、ランニングコストの削減にもなります。

高いセキュリティ性を確保

従来とは比べられないほど大量のデータを取り扱うからこそ、情報漏洩のリスクは必然的に高まります。

つまりビッグデータ分析では企業のセキュリティ性を強化しなければなりません。

クラウドでは“ユーザーデータ”を預かるという観点から、高いセキュリティ性を保っているベンダーが多く存在します。

セキュリティシステムの導入を必要とせず、セキュリティ性を確保できるのでコスト削減と業務効率化に繋がるでしょう。

以上がビッグデータに対するクラウドの必要性ですが、もちろん環境によってはオンプレミスで環境を構築した方がいい場合もあります。

ただ、今後の主流は間違いなくクラウドであり、多くの企業がビッグデータ分析基盤をクラド上に構築することかと思います。

クラウドだけでは成立しない?

ここまでビッグデータとクラウド、2つの基本と必要性について紹介してきましたが、この2つだけでビッグデータ分析は成立しません。

データ収集の環境を整える必要がありますし、何より取り込んだデータを処理するためのソリューションが必要です。

ビッグデータ分析とは様々な要素が絡み合い初めて活用できるものなのです。

分散処理システムの“MapR”とは

ビッグデータ分析ではリアルタイムなデータ処理が必要と前述しましたが、その環境を整えてくれるのがMapRという分散処理システムです。

分散処理システムとは大量のデータを一つのサーバ上で処理するのではなく、複数のサーバで構成されたネットワーク上で処理を行います。

これにより安価なサーバで大量のデータ処理が可能になり、またオーバーヘッドを減少することで処理パフォーマンスを向上することができます。

MapRは分散処理システムである“Hadoop”をベースとしており、かつHadoopの弱点である“外部データのHDFS変換の必要性”や“Javaガベージコレクションによる問題”などが改善され、互換性100%のインターフェースを提供しています。

この他 “ダイレクトシャッフルによる最適化”や“分散Name Node(CLDB)によるボトルネックの解消”などを提供しているので、快適なデータ処理環境を構築することが可能です。

まとめ

“クラウドファースト”という言葉があるように、今やサーバ環境構築の際はクラウドを優先に考えることで、コスト削減や業務効率化などを図っています。

ビッグデータ分析環境においても例外ではなく、多くの企業がクラウドで構築していくことでしょう。

ちなみにMapRはセキュリティ性の高いMicrosoft Azureクラウド上でも提供されているので、高いセキュリティ性を確保しつつ快適なデータ処理環境を構築することができます。

 

ビッグデータ/IoT時代のデータ分析プラットフォームまるわかりガイド

ビッグデータ/IoT時代のデータ分析プラットフォームまるわかりガイド
MapRコンバージド・データ・プラットフォームは、ビッグデータのための包括的な統合プラットフォーム機能を提供します。

リアルタイム処理が可能なデータベースに加えて、イベントストリーミング、拡張性の高いストレージ機能により、企業は、バッチ処理用、リアルタイム用といったシステムを組み合わせることなく、たった一つのMapRでデータ活用が可能となります。

このガイドでは、

・なぜ新しいビッグデータ基盤が必要なのか?
・多くの企業が抱えるデータ基盤の課題
・MapRコンバージド・データ・プラットフォームとは?
・MapRでビッグデータ基盤はどう変わるのか
・MapRを採用したお客様の声

を中心にご紹介しています。この機会にぜひご覧ください。

無料ダウンロードはこちら

こちらの記事もおすすめです