HadoopTimes

実践機械学習
導入検討

ビッグデータが注目される理由と新しいデータ活用基盤の必要性

基幹システムからユーザー部門へとシフトするITシステム投資

ここ数年、私たちの耳によくするビッグデータ。実は世界中の企業がビッグデータ活用に向けて大きな舵をきっています。

一昔前のIT投資は、基幹系業務システムの導入といったビジネスを行うために必要な基盤投資に焦点を当てられていました。もちろんそれらは引き続き行われますが、多くの世界企業はユーザー部門へのIT投資にシフトしています。つまり効率化という流れの投資からより売上に直結する通しへと変わってきているのだ。

クラウドサービスのようにシステムメンテナンスが不要でユーザー部門が使いやすいプラットフォームへの投資が活発化しているのも、そうした流れに拍車をかけている。そしてユーザー部門側がITを活用して例えばお金を儲けようとした時、日々の数値の可視化や顧客動向の把握、さらには将来の予測分析などのニーズが生じてくるが、その実現にはデータ分析が欠かせなくなってくる。

こうしたことからデータそのものの付加価値の高さを多くの企業が理解しはじめ、企業の競争力の源泉として位置づけられるようになってきているのである。

ビッグデータとは何か?

そもそも「ビッグデータ」とは何なのだろうか? 諸説あるが、「ビジネスニーズを満たすために必要となるデータ群」だというのが最もしっくりくるでしょう。

容量の他、データの数、種類、コスト、パフォーマンスなど、さまざまな観点が考えられるが、必ずしも”ビッグ=容量”ではない点に注目してほしい。いずれかの要素が自社のキャパシティからあふれてしまったら、それがすなわちその会社にとってのビッグデータになるのだと考えても決して間違いではないだろう。

例えば容量はGBクラスでシステムのキャパシティの範囲であっても、100億レコードもあるようなデータを従来型のRDBで管理できるかといえば、まず難しい。これは明らかにビッグデータであると言っていい。

ある企業が売上を30%増やしたいと考えて、そのために顧客の動向を知ろうとしたとする。

顧客動向を知るためには売上データだけを見ていたのでは不十分で、多種多様なデータを売上データとひも付けて分析する必要がある。

顧客がWebサイトのどこにアクセスしているか、どこにどれだけ滞在しているか、どこで商品をカートに入れて、最終的にどの商品を買ったか、もしくは買わなかったか……Webサイト上の情報だけでも多岐にわたる。

さらに実店舗内での顧客の動線を把握するためのWi-Fiアクセスログや、SNSでのつぶやき等々、顧客動向を知るために必要なデータは数えきれないくらいの種類に及ぶ。単純な売上げデータ(=基幹系/業務系システムのデータ)にこうした膨大な周辺データを加えていけば自然と「ビッグデータ」になっていくのである。さらにそれらを数ヶ月や1年分だけでなく、3年分、5年分と比較して使うのだから、容量的にも「ビッグデータ」となるのは必然だ。

ビッグデータを支える基盤と米国流通大手での活用例

ビッグデータとそれを支えるシステム基盤の主な用途について説明しよう。

基本となるのは、データレイク(エンタープライズデータハブ)によるデータのサイロ化の解消だ。

まずビジネスニーズとして、売上や収益向上、顧客動向の把握といったセールス/マーケティングのニーズや予防保守、不正検知、在庫の適正化などリスク回避のニーズがある。これらの依頼をIT部門が受けると、それはITニーズとなっていく。

具体的には、ストレージとデータウェアハウス(DWH)最適化といった情報系ITに関するニーズ、リアルタイム処理、ストリーミング対応といったIoT/M2Mに関するニーズ、そしてバッチ高速化のような基幹系ITのニーズなどが挙げられる。ストレージとDWH最適化については、パフォーマンスやコストは当然だが、大きいのは構造化データ以外のデータの処理が重要なポイントとなる。

ビッグデータを支える基盤

わかりやすい例として、コンバージドデータプラットフォームを提供するソリューション「MapR」を導入し、ビッグデータ活用のシステム基盤の構築に成功している米国最大手のGMSチェーンでのケースを簡単に紹介しよう。

同社では、ERP、CRM、Webサイト、在庫管理など、システムがサイロ化されており顧客データも統合化されていなかった。システムがサイロ化するとデータもサイロ化されてしまうため、顧客視点で動向を把握することが不可能な状況だったのである。

そのため同社では、すべての顧客に関するデータを一箇所に集約してデータレイクを構築。各種の分析をデータレイク上で行えるようにした。そうすることで、それぞれのビジネスニーズに応じた施策が打てるようになったのである。その後同社では新しいデータ分析基盤の活用によって、売れ筋商品の捕捉と理解、来店者の属性や動向の把握、動線/陳列最適化による商品クロスセリング、さらにはこのデータ基盤のリアルタイム性を上げて、常に最安値と比較し最安値保障をし、購買意欲を上げるなど、数多くのビジネスベネフィットを得ることができたのである。

データレイクやエンタープライズデータハブといったものがいかに重要になってくるかを示す好例といえるだろう。

mapr活用事例

新しいデータ分析基盤を構成する「Hadoop」

従来ながらのデータ分析のほとんどは、売上や在庫データ等を格納するトランザクションデータベースから、売上データや在庫データといったGBクラスの構造化データをDWH(オペレーショナルデータベース)へと一度データを移して、売上分析を行うといった形となる。いずれのデータベースもテクノロジーとしては従来からのRDBMSで構成され、まだまだほとんどの企業ではこうした分析基盤を使っていると思われる。

一般的な分析基盤

しかしいくら売上高の分析をしたところで顧客動向まではわからないため、売上レポートは作れるが、売上を上げるための施策を打つまでいかない。そのためビッグデータ活用を志向する最新の分析基盤は以下のような形となる。

まずトランザクションデータベースにある基幹系の構造化データ以外に、顧客動向把握に必要となる様々なデータをプラスしていく。例えばPOSデータやWebサイト、ECサイトのアクセスログといった構造化されていないデータをそれも複数年分のデータ含めると、あっという間にTBやPBといった膨大な容量になってくる。

これらのデータをすべて既存のDWHに格納していたのではコスト的にもパフォーマンス的にも非常に厳しいため、より安くて計算も素早い新しいデータ処理の仕組み──すなわち「Hadoop」にデータを格納するようになるのである。

ビッグデータ分析基盤

これが、アナリティカルデータベースであり、ロックやコミット等が必要となるトランザクションは伴わず、検索や分析目的の大規模データの格納と、データクレンジングの分散処理や分析を担う。また構造化データ以外のファイルやログの格納、処理、分析もここで行うことになる。

このようなHadoopで構成されたアナリティカルデータベースでデータを一次処理した後に既存のDWHに渡すというスタイルが、ビッグデータ分析基盤の主流となっていくことだろう。

つまり、データを格納する場所が段々と変わってきているのである。例えば、既存のデータ格納場所であるRDBMSや基幹系システムでは、システムの可用性や単一でのパフォーマンス(スケールアップ)などが強く求められるが、ビッグデータをここで管理するとなると無理が生じてくる。

そこで、トランザクション系の他に、分析系の新しいデータ格納の仕組みが必要となっているわけだ。その新しい仕組みは、データ量当たりのコストが安く、増え続けるデータに対してスケールアウトができ、様々なデータを扱うため、多構造化データ処理ができるものでなければならない。まさに、その新しいプラットフォームがHadoopであるわけだ。

いったいHadoopとはどのようなものであるのかなどは、次回以降に言及していくことにしよう。

「いまさら聞けない」データ分析の総ざらい

「いまさら聞けない」データ分析の総ざらい
昨今、「データ分析」の重要性が強く叫ばれています。ただ、それはアナリストやデータ・サイエンティストと呼ばれる“専門家だけが担うことができる難解なもの”という誤解を持たれてはいないでしょうか。

データ分析という手法は、IT のパワーを活用することで、どんな企業も導入・実践することができる“現実解”なのです。

データ分析とはいかなるものなのか――。

この資料では、これからデータ分析を始める方や始めたが、もう一度初歩知識を復習したい方々向けにデータ分析の基本を解説します。

無料ダウンロードはこちら