HadoopTimes

ストリーミングアーキテクチャ Apache Kafka とMapR Streams による新しい設計手法
ソリューション

Apache Spark の革命的リアルタイム用法


Hadoop がホストする Apache Spark は多くのデータを素早く処理するのに優れている。しかし、もしリアルタイムでデータを処理できればもっと良いのではないか?もし迅速な決断があなたのビジネスで大切なら、間違いなく Spark Streaming のような Spark スタックを含む MapR ディストリビューションを検討した方が良い。

リアルタイム ビッグデータ処理の素晴らしい、最新の、革命的ないくつかの使い方を紹介しよう。

クレジットカード詐欺摘発

クレジットカードをスワイプし、レシートにサインをし、買物をする。あなたではない人が。あなたの財布が盗まれたのかもしれない。ハッカーがあなたの情報をどこかのサイトから盗んだのかもしれない。近所のガソリンスタンドでクレジットカードがスキミングに遭い、番号を知られたのかもしれない。どのように起きたとしても、それはクレジットカード詐欺(ビッグデータがどのように金融詐欺を減少させるかを見る)であり、クレジットカード会社は阻止するためにいつ、どこで起きたのかを知りたがる。

銀行とクレジットカード会社は詐欺告発の取調べを受けている。だからできる限り阻止したいのだ。インチキ取引を見抜くために精巧な数学モデルをすでに持っているが、これらのモデルは通常1年に1回しか更新されない。

Hadoop 上に乗る Apache Spark Streaming は、銀行が取引を行いながら以前に行われた特定された詐欺の足跡を元にリアルタイムで詐欺を検出するのを可能にする。同時に、モデルを常時アップデートすることができる。詐欺が見つかれば見つかるほど、将来その検出能力は精巧になっていくのである。

ネットワーク セキュリティ

ネットワーク セキュリティは、特にここ数年の注目を集めるデータ違反行為が起きた後、あらゆるビジネスの最初の課題となっている。現代のネットワークは膨大なデータを運んでいる。ほとんどのトラフィックは害のないものだが、インターネット上には悪意を持った人もいる。ハッカーはインターネットを使って DDoS 攻撃(Distributed Denial of Service)を起こすために何千、何万というコンピューターを略奪してボットネットに変えてしまい、クレジットカード情報を盗み、もしくは情報に大混乱を起こす。

そのようなことが起きる前にセキュリティ問題を検出することができたら助かるのではないか?それこそが、グローバル管理セキュリティ サービス プロバイダが Hadoop 上にあるセキュリティ サービスを使って行っていることだ。

プロバイダは Spark スタックの様々な構成要素を使い、リアルタイムで犯意のある活動の跡がないかパケットを調査する。前面では、Spark Streaming を使いパケットをストレージ プラットフォームに渡す前にすでに知られている脅威と照らし合わせてチェックする。このストレージ プラットフォームでは、GraphXMLlib のような他のパッケージを使ってデータがさらに処理される。

ハッカーの動きは早く、常にIT課よりもひと足先を行こうとしている。機械が学習し、解決作をストリーム処理するのと同時に、システムは新しい脅威をその進化に追いつくように学習し続け、クライアントをリアルタイムで守るのだ(ビッグデータがどのようにセキュリティを大幅に高めるかを見る)。

ゲノム配列決定

20世紀には様々な病気で死ぬ人の数が驚くべきほど減少した。また医学がDNAを発見した世紀でもある。21世紀には、ゲノム工学は医学に新しいルネッサンスを引き起こすようである(遺伝子学者がビッグデータを使いどのように研究を加速させているかを見る)。

唯一の問題はDNA配列決定ゲノムが膨大なコンピューター能力を必要とするということだ。例えば、最新の「次世代」DNAシーケンサーである the Illumina Xten は1日あたり6TBのデータを生み出す。医学レベルのデータのためには、科学者は3000億ベースペアを配列決定する必要がある。ビッグデータの「ビッグ」の意味がわかるだろう。

膨大なデータがあるというだけでなく、入手可能な最速のスーパーコンピューターを使って行っても処理には長い時間がかかる。 NextGen ゲノム会社は Spark の能力を使ってゲノムを処理する時間を劇的に減らしている。かつては遺伝子に合うように化学化合物を調節するのに数週間かかっていた。今では遺伝子学者はそれを数時間で行っている。

リアルタイム広告処理

「マッドメン」シリーズの、スターリング、クーパー、そしてパートナーズのメディア課長、眼鏡をかけ、軽視されているハリー・クレーンは絶え間なく会社に自分たち自身のコンピューターが少なすぎることに抗議する。そして会社はついにIBMの大型汎用コンピューターを入手するのだが、クレーンは今日の広告主が使う、そして1960年代に人々が想像したものを遥かに超えるリアルタイム処理能力を見たら、もっと羨ましく思うことだろう。

ある広告会社は リアルタイムで広告ターゲット プラットフォームを構築するために MapR-DB に搭載した Spark を使っている。システムはユーザーのデータを見て人口統計学データに基づき、どの広告をユーザーにインターネットで見せるかを決定する。広告はタイムリーである必要が非常にあるため、認知度を高めたいなら広告主は素早く動かなくてはいけない。Spark Streaming はそれを実現するひとつの方法だ。

医学

ゲノム学がヘルスケア産業に革命を起こすひとつの方法を提供するかたわら、プロバイダはヘルスケアをもっと効率良くする方法を探している。ひとつの方法は再入院を防止しようと努めることだ。あるプロバイダは Spark を使って患者の記録と臨床情報を照らし合わせ、誰が退院後に合併症を引き起こす可能性が高いかを調査している。それから再入院を防ぐために自宅ヘルスケア サービスを展開し、患者と病院側の両方のコスト削減を実現しているのだ。

結論

お分かりのように、MapR ディストリビューションと一緒になった Spark スタックには多種多様なリアルタイム使用法がある。ビッグデータはただの誇大広告ではない。ビッグデータは我々が住む世界をより良く、速く、安くするために実際にある問題を解決している。もしこれらの例があなたの食欲をそそったとしたら、Spark のMapR ディストリビューションがあなたのために何ができるかを見てみてほしい。

Spark についてのさらに詳細な紹介情報についてはジェームズ・A・スコット著の無料のインテラクティブ電子書籍 「Spark 入門:開始から生産まで」をお読みください。

「いまさら聞けない」データ分析の総ざらい

「いまさら聞けない」データ分析の総ざらい
昨今、「データ分析」の重要性が強く叫ばれています。ただ、それはアナリストやデータ・サイエンティストと呼ばれる“専門家だけが担うことができる難解なもの”という誤解を持たれてはいないでしょうか。

データ分析という手法は、IT のパワーを活用することで、どんな企業も導入・実践することができる“現実解”なのです。

データ分析とはいかなるものなのか――。

この資料では、これからデータ分析を始める方や始めたが、もう一度初歩知識を復習したい方々向けにデータ分析の基本を解説します。

無料ダウンロードはこちら

こちらの記事もおすすめです