HadoopTimes

ストリーミングアーキテクチャ Apache Kafka とMapR Streams による新しい設計手法
ソリューション

目を覚ませ! ~ リアルタイムのデータ利用

Jack Norris

サンノゼのStrata + Hadoop World での基調講演で私が説明した通り、企業は単なる業績報告以上のことを求められています。現時点で起こっている事象に対して必要なタイミングで意思決定ができれば、相当な強みとなります。実際のところ、多くの革新的なアプリケーションのベースとなっているのが、リアルタイムなのです。それでは「リアルタイム」とは実際どういうことなのか、全過程を通じたリアルタイムの必要性について、より詳しく見ていきましょう。

高頻度の意思決定

現実的にリアルタイムは全過程において必要とされています。データが収集された瞬間に始まり、事業対策が実施されるまで続きます。行動までの時間枠を短縮できるならば、本当の意味でアプリケーションの土台を形成することが出来るでしょう。

例を幾つか見てみましょう。代表的な企業で微調整が伴う自動化処理に意思決定アプリケーションを用いている代表的な例は以下のパターンになります。

  1. トップラインに影響を与える場合
  2. コストを削減する場合
  3. リスクを軽減する場合

ALTITUDE DIGITAL

ALTITUDE DIGITAL

ALTITUDE DIGITALは、業界で最も急成長を遂げている広告プラットフォームの1つです。70億近くのトランザクションがある Altitude Digitalは、的確な時間に的確な人へ最適な動画広告をリアルタイムで選択し、再生することができます。

BAPTIST HEALTH CARE

BAPTIST HEALTH CARE

BAPTIST HEALTH CAREは、20億ドル規模の病院チェーンです。リアルタイムで患者データや病歴を参照するといった、患者ケアの向上に有効なデータを取り扱うイベントベースのプラットフォームに移行中です。

ある半導体メーカー

SEMICONDUCTOR MANUFACTURER

ある半導体メーカーは、振動や熱などを計測するのにリアルタイムの機械センサーを活用し、イールド・マネジメントの改善に役立てています。リアルタイム分析処理を利用し、同社は品質問題を究明し、迅速な問題解決を実現しています。

NATIONAL OILWELL VARCO (NOV)

NATIONAL OILWELL VARCO

NATIONAL OILWELL VARCO(NOV)は、ヒューストンに拠点を置く230億ドル規模の多国籍企業で、石油機器や部品、サービスをグローバルに展開するサプライヤーの大手です。NOVは MapRプラットフォームを利用し、リアルタイム分析を活用することで、石油・ガスの掘削および生産を最適化させています。

アメリカン・エキスプレス

AMERICAN EXPRESS

アメリカン・エキスプレスは、ビッグデータを活用し、世界中どこであれ、アメリカン・エキスプレスカードが使用される際の不正使用の特定ができるようにしています。同社のプラットフォームは取引が不正のものであるかどうかを2ミリ秒以内で検知でき、毎年1兆ドルものトランザクションを保護しています。

オペレーションの俊敏性(アジリティ)を有効化する

How to Enable Operational Agility

これらのアプリケーションは、業界を超えて活用されている革新的なリアルタイムアプリケーション例のほんの一部にすぎません。これらを高頻度意思決定と呼ぶか運営上の俊敏性(アジリティ)と呼ぶかは重要ではありません。大事なのは、これらのアプリケーションをどうやったら有効にすることができるか、ということです。まず第一に新たなアプローチが必要となります。

旧来型アプリケーション生成データ

従来のやり方として私達は、「アプリケーションを第一」とするアプローチを取っています。アプリケーションから始め、それに必要なデータを決定します。それからデータを専用スキーマとして用意し、アプリケーションに従わせます。

これらアプリケーションはそれぞれが専用のサイロを持っています。その為にサイロが蔓延しています。実際のところ、企業は平均して何百というデータサイロを組織中に持っているのが普通です。ガートナーは、これが会社内のデータ管理における最大の課題としています。ビッグデータが約束するのは、これを1つのデータレイクとして一元化し、その処理をデータに持ち込むということです。

Growing Complexity of Big Data Environments

Hadoopを利用すれば、組織はデータを一元化されたデータレイクに収集することが可能になります。ただビッグデータはますます複雑化していますから、実際には、収集用クラスタ、ストリーミング解析用クラスタ、データベース運営用クラスタ、そしてディープアナリティクス用クラスタ、というように、データの専用クラスタへの分割を目の当たりにしています。技術が違うだけで、また同じようなサイロ問題が生じてるのです。

コンバージェンスというリアルタイムの鍵

MAPR Converged Data Platform

データサイロを排除し、これらの革新的なリアルタイムアプリケーションを可能にするには、2つのエリアに力を注ぐ必要があります。

まずは、コンバージドデータプラットフォームです。別々に分かれたクラスタを排除し、アプリケーションが全データから利益を得られるようにします。サイロを排除することによって、ご利用のアプリケーションが全データを多種多様なデータ操作に利用できるようになります。構造化データであれ非構造化データであれ、また稼働中のデータ(data-in-motion)であれ保存されているデータ(data-at-rest )であれ、データの一つひとつが「第一級オブジェクト」としてみなされます。

イベントベースのデータフローというリアルタイムの鍵

Event-based Data Flows

イベントベースのデータフローという、2番目に力を注いでいただきたいエリアを代表するのが稼働中のデータ(data-in-motion)です。例としてはウェブイベント、機械センサー、バイオメトリクス、モバイルイベントなどです。オペレーションの俊敏性とは、この流れるデータを迅速に分析し、コンテキストの中で理解する能力にすぎません。コンテキストは、保存中のデータ(data-at-rest )に見られる長期的なトレンドやパターンを理解したり、新しく到着するデータを活用することから生み出されます。稼働中のデータと保存中のデータは緊密に作用しあう必要があることを忘れないようにしてください。この2つは基本的に別々に分離されたものではないのです。

ビッグデータは1つの事象ごとに生成されている

Big Data is Generated One Event at Time

実際のところ、ビッグデータの量や多様性に驚き、私たちがそれを話題にする時は、保存されているデータについて話している場合が多く、それがソーシャルやモバイルインタラクションであれ、機械が生成するデータであれ、顧客の取引であれ、そのビッグデータは1つの事象から生成されたデータであり、ビッグデータは通常はこうして1つの事象が起こる度に作られることを忘れがちになります。このようなデータフローの活用、そしてその意味やコンテキストに対する理解が、アプリケーションに欠かせない構成要素となります。

アプリケーションを駆動させるのはイベントベースのデータだ

Event-based Data Drives Applicationsアプリケーションを作動させるのは、イベントベースのデータです。それが機械センサーを収集し故障の予測や阻止を行うものであれ、大事なオファーを顧客に提供するものであれ、不正行為を特定して行為が行われる前に阻止するものであれ、これらの使用例はすべて、イベントベースのデータプラットフォームとコンバージドプラットフォームによって可能となっているのです。

Event Based Date for Apps

イベンドベースのデータを利用しアプリケーションを作動させている会社の一例が、 Liaison Technologiesです。同社は顧客のためにヘルスケア情報を簡潔にし、フローをスピードアップしたいと思いました。その答えがコンバージドプラットフォームであり、電子カルテをストリーミングで取り扱うことだったのです。ストリーミング自体が1つの記録システムであり、病院、医院、患者、医者、支払人、という同社の「顧客」に奉仕する出版および会員パラダイムなのです。同社の顧客は、アップデートが行われる度にリアルタイムで情報を得ることができ、同社のアプリケーションは、それがデータベース運営のための表であれ検索機能用のインデックスであれ、そのデータを道理にかなった形式で消費します。その結果、プロセスが簡潔化され、ずっと速くなり、リアルタイムのアプリケーションにはプライバシーを保護しHIPAに準拠するセキュリティ機能も一体化されました。

何が勝利の鍵となるか?

最も多くデータを持つ企業が勝利者となるとは限りません。真の勝利者は、データ俊敏性(アジリティ)を結果で示している企業なのです。俊敏性で大事なのは、「イベントベースのデータフローを含むコンバージドプラットフォームおよびコンバージドプロセッシングを同時に持つこと」であると覚えておいてください。

ビッグデータに対して、まさに本格的に取り組む時がやってきたのです。

著者情報

Jack Norris

ジャック・ノリス

(MapR Technologies, SVP,データ&アプリケーション)

ベンチマーク結果:SAS Visual Analytics on MapR Converged Data Platform

ベンチマーク結果:SAS Visual Analytics on MapR Converged Data Platform
この資料では、SASVisualAnalytics( 以下SASVAと略す)のインフラとなるMapR Converged Data Platform における環境構築および性能評価について評価・考察します。

評価・考察の目的

  • インストール検証においては、OS、MapR、SAS のインストール作業手順の確立、およびインストール時の設定値を洗い出しインストールの標準設定/個別設定を明確にし安定したインストールを支援する事を目的とします。

  • 機能検証においてはHadoop 機能にフォーカスしてSASVA のデータロード機能がMapR
    と連携して製品が所定の機能を提供できる状態であることを確認します。

  • MapR Hadoop ディストリビューションを採用することで、Apache Hadoop と比較し、
    システムの性能向上、システムの安定稼働、システム管理の用意性が実現出来ることを
    確認します。

  • 本検証報告は、製品導入における判定・補足資料として使用されることを希望します。


是非ご覧ください。

無料ダウンロードはこちら

こちらの記事もおすすめです