HadoopTimes

実践 機械学習:レコメンデーションにおけるイノベーション
最新動向

新たなアプローチの開拓

我々は、1億1000万ドルの融資 がGoogle Capitalによってなされたことを、大いなる喜びを持ってお伝えします。

WWGDは、-What Would Google Do? (Google なら、どうするか?)-の頭字語をとったもので、過去15年間にわたって支持率が増えたビッグ・データの方向性に関する略語です。1997年頃、インターネット検索の覇権を争っている会社がたくさんありました。あなたは、Alta Vista で検索したことを憶えていますか? Googleは、ビッグ・データに対するアプローチを新たに開拓し、その後、検索市場でそのテーブルを走らせました。Googleはリードしていましたが、革新を止めることはありませんでした。 ビッグ・データへの挑戦のために、Googleは先例のないスケールでストラクチャー化されていないデータを処理しましたが、それでもBigTableを開発し、それによってストラクチャーに機敏さをもたらしました。ストラクチャーはテーブルの形でしたが、新しい、または変化しているデータ・ソースにアクセスすることを妨げる集中化を必要としないものでした。長年にわたって、Googleは多くの技術の基準化に取り組んできましたし、ビッグ・データ同様、、ビッグ・データ・センター・、ビッグ・ネットワーキング、そしてビッグ・ストレージのための要求に革新という形で応えてきました。

この産業における革新は、伝統的に、国防、航空宇宙と金融サービスによって推進されてきました。 過去10年の間にその傾向は変化し、次世代テクノロジーのための革新と先導者は、Web 2.0企業から、特にGoogleから、徐々に生まれました。そして、それには折り紙付きの技術的評判と実績があるのです。今日、技術的課題に直面した時、質問すべきことは、“WWGD? (Google なら、どうするか?) “ 、です。

Jeffrey Dean と Sanjay Ghemawat , (Googleの上級研究員と研究技師)は、論文の「MapReduce: ラージ・クラスター上での単純化されたデータ・プロセッシング」を2004年に共同執筆し、中核的なMapReduce アルゴリズムを年代順に記録しました。Google File Systemから始まるテクノロジーは、MapReduceのようなアルゴリズムをサポートするためのスケーラブルなプラットホームを提供するために構築されました。2005年、Hadoopプロジェクトは、この論文とGoogleで行われた仕事に誘発されて始まりました。

革新はBigTableのような新技術の開発とともにGoogleで続けられ、「Bigtable :体系化されたデータのための分散記憶システム」の中で記述されました。これはDeanとGhemawatを含む9人のGoogleエンジニアによって書かれた白書です。DremelはGoogleにInteractive SQLを提供し、「Dremel :ウェブ・スケール・データセットの双方向分析」の中で記述されました。Spannerは、データベース処理を配布するもので、「Spanner :Googleのグローバルに分散データベース」の中で説明されました。もう一つの革新は、Trutimeであり、これはこの世界的なテクノロジーが何時であるかがわかるようにするソフトウェアです。 Google I/Oで発表されたCloud Dataflowは、大容量のデータを取り込み、変換して分析するフレームワークです。

Hadoopのコミュニティは、企業業務ソフトウェア製品を作成するために、これらの革新の多くをうまく採用しました。たとえば、我々MapR エンジニアリング・チームは、これらのGoogle革新を取り入れて、双方向データベース処理のためのApache Drill、ストラクチャー化されていないデータ処理のためのMapRファイル・システム、さらに昨年、体系化されたデータのための分散記憶システムとしてのMapR in- Hadoop データベースを作成しました。Hadoopは基本的に、計算層とストレージ・サブシステム層から構成されています。計算層は、アプリケーションAPIを含みます。 MapRは、Apache Open Sourceプロジェクトとして、アプリケーションAPIを実施するか、または導入することによる革新全てを提供し、これらのAPIがすべてのHadoopのディストリビューションにとって自由に、そして、簡単に使えることを確実にします。たとえば、JSONのようなセルフ‐ディスクライビング・データ・インターチェンジ・フォーマットを組み込むために、Apache Drillは人気のあるSQLインターフェースを拡張しています。

私たちのMapR エンジニアリング・チームは、Oracle、VMware、IBM およびInformaticaのような会社での経験も取り入れ、企業能力の中に組み込んだり、ビジネス上の要求を推進するための特別なアプリケーションに革新的な投資をしたい会社によって要求される、高可用性や完全自動バックアップのデータセンターに向けた努力を続けていますが、実行中のプラットホーム・インフラストラクチャーを作成したい、もしくはそれを維持したいといった願望はありません。
MapRは、Google Capitalによって選ばれて誇りに思います。あなたがビッグ・データにおいてその方向性を検討するときは、御自分に問いかけてみて下さい。

“WWGD?(Google なら、どうするか?)”

こちらの記事もおすすめです