HadoopTimes

ストリーミングアーキテクチャ Apache Kafka とMapR Streams による新しい設計手法
技術情報

ビッグデータを次のレベルへ

先日、Tabor Communications (同社のブランドには、Datanami、EnterpriseTech、HPCWireなどがある) がスポンサーを務め、nGage Eventsが運営するビッグデータ活用2014サミットに出席した。SAPのコリン・ドーバーが基調講演の1つに登場した。コリンのビッグデータについてのプレゼンテーションの副題は、「センサー、シグナル、スワン、ショック」であった。コリンは、ビジネスの世界で行われているビッグデータ分析の現状についての数多くのすばらしいアイデアと洞察について語ってくれた。彼の講演のハイライトをここで振り返ることは有益だと思う。

まずは、彼がつけた副題をそれぞれ見ていこう。

  • センサー – 以前の記事で紹介したように、ビッグデータとは、「数値化され、追跡されるものすべて」である。これは、どこでもいたる所にセンサーが存在していることによる。多くの場所 (空港、銀行、ショッピングモール、大きな道路) に監視カメラが存在することもこれに含まれるが、私たちの生活のセンサーとして機能する、私たち自身のモバイルデバイス (携帯電話やタブレット) やウェブの使用ログ、ソーシャルメディアのコメント、カスタマーレビュー (オンライン、メール、コールセンター経由) もこれに含まれる。センサーは、あらゆるものを監視し、追跡するようになっている。科学の分野でも同じことが言える。センサーが私たちの健康、体力作り、海、天候、地球の地震活動、宇宙などを監視している。センサーの配置と使用、センサーからのデータ入手、あるいは複数のセンサーからのデータ検索は、こうしたさまざまなデータストリームから洞察や価値を引き出そうとするビジネスの非常に大きな課題を象徴するものである。
  • シグナル – ビッグデータにおける重要課題の1つ (そしてビジネス分析プロジェクトのボトルネックの1つでもある) が、ノイズの中からビジネスに関係があり、ビジネスにとって価値があるシグナルを抽出することである。データストリームに適用する一定のルールやフィルターを構築するのだが、最初はそれほど困難ではないこともある。たとえば、事象の一定の形式や、行動の変化、新しいパターンの出現、特定のパターンの頻度の増加と減少 (ウェブの使用パターン、顧客の購入パターン、欠陥製品の発生など) の検知である。データストリームが価値を生み、ROIを改善させ、ビジネスの目標達成につながるということが明確になることにより、さらに洗練されたアルゴリズム (ビジネスルール) が使用されることがある。洗練されたアプローチの例としては、受信データストリーム上の自律予報分析アルゴリズム (マルコフモデル、回帰モデル、神経ネットワークなど) の配置や、アルゴリズムの複数のデータタイプの統合 (例: ウェブサイトの訪問者数、マーケティングキャンペーンの反応 [使用されたクーポンの数]、売上データとともに、ソーシャルメディアコメントの感情分析を実行) といったものがある。
  • スワン – これは、ナシーム・タレブ著書『ブラック・スワン』のタイトルと同様の事柄を述べている。ブラック・スワンは珍しい (または起こりそうもない) 事象で、希にすばらしい結果をもたらすものをいう。これは異常値であり、予想の範囲外にある物事だから、予測することは不可能である。リスクマネジメントでは、こうしたブラック・スワンを特定しようとしたり、少なくとも特定するための計画を立てる。ビッグデータに価値があるのは、ビッグデータには、こうした起こりそうもない事象の例が実際に多く含まれる可能性があるからである。数十億回の計測データ (センサーのシグナル) を手にしているため、100万回に1回、10億回に1回という珍しい出来事を、いまでは明確に見ることができる。
  • ショック – ビジネスにおけるショックというと、さまざまなものを思い浮かべることができる。ビッグデータの文脈では、多量のデータをシステムに取り込むことの技術的結果、新しい分析により必要になるビジネス過程の実務上の変化、会社の会議室にチーフ・データ・サイエンティストや最高データ責任者が現れることの文化的なショック、ビッグデータ分析という新しい華やかな世界の中で、ビジネスが生き残るために必要となる技術の革命的変化といったことが問題になるだろう。コリンはこれをこのように述べた。「世界経済のもろさが、新しい標準となっている」

コリン・ドーバーは以上の概要を述べた後、ビッグデータ分析で成功を探るビジネスに関する公演の中で、いくつかの重要な教訓や名言について語った。以下のようなことだ。

  • (出所不明の引用): 「石器時代には、ありのままの道具を優秀な人間が使用したという特徴がある。これに対して情報化時代には、優秀な道具をありのまま使用するという特徴がある」
  • 会議室でビッグデータ戦略を練るときには、「HIPPO (Highest Paid Person‘s Opinion: 一番多く支払った人間の意見) を意識しよう」。ビジネス戦略とビジネス上の行動はデータによって決定されるべきであり、過去の経験や本能的直感によって決定してはならない。ビッグデータ分析は、まったく新しいゲームである。
  • 64%の企業において、意思決定者に分析を使用するのは10%以下となっている。
  • データによって決定される意思決定の要素はどのようなものか。
    1. データ分析テクニック (データ・サイエンス)
    2. ビッグデータ・テクノロジー (例: HadoopNoSQL、グラフデータベース)
    3. 可視化メソッド
  • ビッグデータ時代の最も重要な2つの変化は、次の2つである。
    1. ユーザーの変化
    2. 文化の変化
  • 「文化は、戦略をランチとして食べてしまう」 – 例: 何事に対しても反対ばかりする人が、新しいことを成功させてくれなかったり、現状を狂わせてしまうために、あなたのビジネスのビッグデータ戦略は、失敗する可能性が高い。
  • 保守的なビジネス情報レポート (「何が起こったか」という結果論でしかない記述分析) は、これ以上の効果を生まない。分析は、いまや結果論の域を超えている。
    1. 何が起こっているのか (機動的なビジュアル分析。監視)
    2. これから何が起こるのか (将来分析。展望)
    3. 起こりうることの中で一番いいものはどれか (規範分析。最適化。洞察)
    4. ビッグデータ分析システムは、新しい状況、新しい要求、新しいセンサー、新しいシグナル、ブラック・スワン、ショックに自律的に適応することを覚えられるのだろうか (認知分析。啓発)
  • ダークデータは、ビッグデータの形として最も大きなものかもしれない。 – ダークデータとは、会社のデータストレージ・ネットワークを埋め尽くすファイル、データベース、レポート、顧客のログ、取引ログなどだが、複数のフォーマットからなり、メタデータは乏しく、出所もはっきりせず、データの質にも疑問が残り、管理も甘く、価値は不明で、可能性が生かされていないものだ。
  • 結果的に、以下のような目的のため、すべての企業がデータ・サイエンティストを必要としている。
    1. ビジネスのダークデータを開放するため
    2. ビジネスのダークデータの価値を開放するため
  • ビジネスのビッグデータに関する最大の課題は、以下のように要約できる。
    1. データの管理
    2. ビッグデータ分析業務への人員配置と技術
    3. コスト
    4. ビッグデータの価値の不透明性
    5. 分析の技術的要求の不透明性
    6. 適切な人員と適切な情報を結びつけること
    7. (センサーからの) シグナルをビジネスの価値に転換すること
    8. コストに縛られた世界の中での、ブラック・スワンとショックのための準備
    9. 次の大きな波に向けた準備: すべてをスマートに! (モノのインターネットと機械間インテリジェンスを含む)
    10. 「可能性の技術」 (例: 有線のダイヤル式電話から、不格好な最初の無線のモバイル電話、そしていまやどこでも目にする超高機能のスマートフォンに至る革命的進化) に重点を置くマインドセットを持つこと

コリン・ドーバーは、ビッグデータ分析プログラムに苦戦しているビジネスのための、ビッグデータ活用サミットのプレゼンテーションの最後に、5つのアドバイスを行った。

  1. いますぐに、ビッグデータのマインドセットに移行すること
  2. ビジネスを差異化する、戦略的なビッグデータ分析事例を作り上げること
  3. 継続的な混乱に対して準備をしておくこと (会議室でのHIPPOを意識する)
  4. ビッグデータの量ではなく、分析に価値に重点を置くこと
  5. 企業内のあらゆるレベル、あらゆる場所において、情報中心のビジネス文化を作り出し、育てること

分析は、パワーユーザーだけのものではない。すべての人のものだ。だれかが数年前に言ったように、あなたはこのマントラを信じ、これによって生き、これに基づいて振る舞うべきなのだ。「データ・サイエンスは、みんなのもの!