HadoopTimes

ストリーミングアーキテクチャ Apache Kafka とMapR Streams による新しい設計手法
技術情報

ビッグ・データとは、定量化され追跡される、すべてのものである

ビッグ・データとは、何でしょうか? さまざまな定義が存在し、それらのほとんど全てはデータそれ自体ではなく、「ビッグ・データ」の概念に重点を置いています。 データ自体は、その容量が紛れもなく非常に「ビッグ」であり、従って定義する特性としては特に示唆的ではないからです。それゆえに、ビッグ・データ概念の定義のほとんどは、2つの内、いずれかを中心に展開されます。

1つは、(a) ビッグ・データを特徴付ける3つのV (容量、速度、および多様性)、もう1つは、 (b) ビッグ・データとは、単純に、前以って収集されたデータと同一ではないデータを指し示す呼称であるという、確固たる信念です。私には、もっとふさわしい定義があります。それは、ビッグ・データが今日の世界にとって本当に意味するものを定義します。上の2つの選択肢について調べた後、私の定義についてご説明します。

ビッグ・データは”ビッグ”である

単純にビッグ・データの特徴を列挙した (非常に制限的な方法によってですが) 上の定義 (a) を用いることは、誰もが小学校で学んだ定義の第1の原則に違反しています。「何かがどのように異なっているか」を定義するのは、「何かが何であるか」を定義するのと同じではないということです。例: guépard(チーター)とは何でしょうか? 答え: guépard(チーター) とは、世界で最速の陸上哺乳類です。しかし……それは何なのでしょう?

私自身の主要なビッグ・データの挑戦を特徴づける10のV – のトップ10リストを紹介することにより私がビッグ・データの「3つのV」で記憶の特徴付けに貢献したことにご注意ください。しかしながら、またしてもこれらは特徴であり、定義ではありません。

ビッグ・データは従来のデータとは異なる

これもまた制限的な、冒頭の定義 (b) を用いることによって、私たちはまたしても、別の相対的な定義に到達してしまいます (この場合は、否定的な比較ですが) – これは、本当の説明または定義ではありません。例: クズリとは何でしょうか? クズリはオオカミではありません。それでは……何なのでしょう?

定義(b) 対しての共通の拡張は、次のように記述します。ビッグ・データは、データの取得、記憶、処理、解析、および解釈のための現存するリソースを超える程に高い割合で、非常に大きく、複雑で、そして高速に移動するデータを指し示す。 これは、宜しい。しかし、またしても、比較的な定義 (他の何かに対して相対的な) であり、本当の定義とは言えません。実際、この定義によれば、 古代ローマ人もビッグ・データを持っていたと論じることも容易なのです! この考え方の結果として、都合よく、何十年もビッグ・データをやってきたと主張する多くの人が、とりわけオンライン履歴書で、存在します。しかし私はこう言います。「今日のビッグ・データは、昨日のビッグ・データではない。」と。

ビッグ・データは、あデータ駆動型決定および発見のための切符です

私の現在の、最良のビッグ・データの定義であり、私の好む定義は、こうです (私がそれを作ったからだけではなく、大部分は、私が本当にそれを確信しているからです) 。 ビッグ・データとは、定量化され追跡される、すべてのものである。 これを分析してみましょう。

  • すべてのもの – これの意味するところは、生活のすべての局面、仕事、消費主義、娯楽、および遊びが今では、あなたや、あなたの世界など、私たちが遭遇するすべての事に関するデジタルな情報 (データ) の源であると認識されるということです。
  • 定量化 – これの意味するところは、私たちはこれら「すべてのもの」を何処かへ、主としてデジタルな形態で、しばしば数値として、必ずしもそのような形態でとは限りませんが、記憶しているということです。それにも関わらず、データ分析の専門家やデータ科学者は、従来の非数値データ源さえも定量化しています (画像/動画ストリームにおいてはパターン認識や特性特徴付けによって、音声ストリームにおいては音響化によって、ソーシャル・メディアその他のテキスト・ストリームにおいてはテキスト解析や感情分析によって、などなど)。すべての物における特性、特徴、パターン、およびトレンドの定量化により、データ・マイニング、機械学習、統計学、および発見が、先例のない規模で先例のない物の数に関して可能になっています。 “モノ”のインターネット は、ほんの一例です (非常に大きいものではありませんが)。しかし、すべてのインターネットは、もっと凄いのです。
  • 追跡 – これの意味するところは、単純にすべてのものを一回だけ定量化・測定するのではなく、連続的に定量化・測定する (あるいは、少なくとも繰り返してする) ということです。これは、あなたの感情、ウェブ上でのクリック、購入履歴、地理的位置、ソーシャルメディアの履歴などなどの追跡を含みます。あるいは、海洋におけるすべての船や宇宙の小惑星の動き、あるいはヒッグス粒子を発見するための大型ハドロン衝突型加速器における数兆の粒子と粒子の衝突、あるいは非土着の環境における侵入種のすべての事例など、あるいは、道路でのすべての車や製造工場でのすべてのモーター、飛行機のすべての動く部品の追跡、などなどを含みます。結果として、スマート・シティやスマートハイウェイ、パーソナライズされた薬剤、パーソナライズされた教育、精密農業、などなどの出現が見られるのです。

これらすべての定量化され追跡されたデータストリームが可能にするものは、より賢明な決定、より良質な製品、より深い洞察、より偉大な知識、最適なソリューション、顧客中心の製品、顧客ロイヤリティの増加、 より自動化されたプロセス、より正確で予測と規範的な分析、ビジネス、行政、セキュリティ、科学、ヘルスケア、教育における将来の行動や結果のより良いモデル、などなどです。

従って、 用語が曖昧で難しいからと言ってビッグ・データの革命から取り残されてはいけません。あなたのビジネス目標、あなたが達成しようと努めているもの、そしてビッグ・データの3つのD2D (Data-to-Decisions, Data-to-Discovery, and Data-to-Dollars) に重点を置きましょう。そうすることで、ビッグ・データの最大の意味に到達するころができます。即ち、ビッグな価値、およびビッグなROI = 技術革新の収益です!

最後に、私は最近MapR の記録的成長に感銘を受けました。そして、その成功が“航空機の飛行中に乗客が消費した軽食の数の定量化し、追跡する”と連携している様子に。LOL! ビッグ・データの新しい定義に得点を付けてください、「すべてのものを定量化し、追跡する!」

こちらの記事もおすすめです