HadoopTimes

ストリーミングアーキテクチャ Apache Kafka とMapR Streams による新しい設計手法
最新動向

Hadoopで5分以内に出来ること

5分間というのは何気なく過ぎてしまうものです。でもHadoopならその5分間で大きなインパクトを与えることが出来ます。
MapRのCEOであり創設者でもある、ジョン・シューローダー氏は最近、この点を説明するために5分間の基調演説を行いました。

以下に記されているのはジョンのメッセージを書き写したものに編集を加えたものです。

時間が限られているということで、ここではHadoopで5分以内に出来ることをお話ししてみるのはどうかと思いました。まず始めにいくつかのユースケースについてお話しします。顧客ベースを見てみて、最初の一分間で話すのは、私たちは473万のユーザー証明を完了したということです。これは、Aadhaarがインドの国民12億人にそれぞれの個人証明を供給しているAadhaar projectの一部としてのことです。

このプロジェクトの目的は、銀行口座を開くことや人口移動を簡単にすること。さらに、このプロジェクトによって政府補助金の横領を13億相当減らすことも可能です。これは偉大なプロジェクトと言えるでしょう。

これは生物測定学に基づいたデータベースですので、全ての国民に関しての、瞳孔スキャン、デジタル指紋、デジタルフォト、そして文章によるデータを含みます。我々はそこに約435万人の国民データを確保し、さらにその全てのデータを蓄積するためのストレージ部分を維持しています。そこでは、例えばある指紋を他の全ての指紋と比較し、不正なIDがシステムに加えられていないことを確認する分析が行われています。その場合、一分間に473万もの認証が行われなければなりません。もし誰かがATMを使用している場合、200ミリ秒以下の時間に回答しなくてはならないからです。

2分目にお話しすることは、ヘルスケア周辺に関する部分です。医者、特にがん治療医は、患者の遺伝子や症状を理解し、その患者に他にどの様な治療が施されているのかということを把握するのに大変苦労しています。予防治療の分野では多くの遺伝子配列分析が行われています。ここでも現在我々のもとには、422万2千の遺伝子配列分析をこの2分目で可能にしている顧客がいます。

3分目にお話しすることですが、ジェフリー・ムーアが、グーグルが広告に革命をもたらしたことを話しているのを耳にされたこともあるかと思います。ルビコン・プロジェクトに関してはまさにその通りです。彼らはこのプロジェクトによって大成功を納めています。

昨晩のカクテルパーティーでルビコンのリーダーの一人であるジャンと話をしました。彼は先々週、IPOにS-1書類を提出したととても喜んでいました。彼らは900億の広告オークションを経営していて、500もの主要出版社と、世界のトップブランドの10万以上を押さえています。短い時間、この3分目の1分の間に、彼らは6300万の広告オークションを実行することが出来ます。ルビコンはアメリカの視聴者の96%に影響を与えることが出来ます。そしてそれはcomScoreを使うことで可能になっています。comScoreでは、1分間に3900万のイベントを行うことが出来ます。

そしてこれが次のトピックにつながります。スーパーボウルをご覧になると、Dr.Dre’s Beats Musicの広告を目にすると思います。これはとても競争の激しい市場での、新しい音楽サービスです。この市場には他にSpotify、Pandora、そしてもちろんiTunesがあります。

Dr.Dreがこの市場で勝利を収める方法は、2000万以上の曲を検索し分析することによって、詳細かつパーソナライズされた音楽を提供することによってです。今日、立ち上げ早々にも関わらず、彼らはこの一分間に129ものおすすめを、音楽愛好者達に提案しています。

もしBeatsの使用にあたりクレジットカードを使うとすると、あなたのクレジットカード・プロバイダー、この場合1億以上のカードメンバーを抱える大規模クレジットカード会社はあなたを詐欺被害から守っています。しかしそれと同時に、クレジットカード処理を通じてカード会社はあなたについて多くのことを知り、あるいはクーポンやBeatsでのディスカウントを提供する場合もあると思います。

最後の一分間では、データの処理について触れましょう。 MinuteSortはテクノロジーの遂行能力を計るの基準として使用されてきました。これは独断的でないテクノロジーの基準です、というのは、どんな種類のハードウェアやソフトウェアも分析することが出来るからです。我々はここで、1.65テラバイト毎分という記録を立ち上げました。これは、1分間に処理出来るデータ量を示しています。

これがどう機能するかという雰囲気をつかんでもらうために、以前の記録保持者はYahoo!やMicrosoftであったということを知って頂きたいと思います。私たちの顧客の一人が私たちのプログラムを298台ものコンピューターにインストールしました。それが底の方の青い点で示されています。彼らは以前の記録を破り、1.6から1.65に引き上げました。私たちの上に、より大きなハードウェア・フットプリントがあるのを見ていただけると思います。

Hadoopで5分以内に出来ることの説明のためにお時間をいただきありがとうございました。ぜひ、私たちのブースを訪問し、MAPR Sandboxをご覧になってください。ありがとうございました。良いカンファレンスを!

こちらの記事もおすすめです