HadoopTimes

実践 機械学習:レコメンデーションにおけるイノベーション
技術情報

ビッグ・データから発見するためのキャラクタリゼーション

我々は、以前「キャラクタリゼーション(特徴付け)があなたのデータにとって正しい理由トップ8」を検討しました。ここでは、データ・キャラクタリゼーションのシンプルな例を4つ提示することによって、理論的なものから実際的なものまで、キャラクタリゼーションに関する議論を展開します。

これらの例の各々において、発生した一組のキャラクタリゼーションは、異なる種類の分析アルゴリズムに繰り入れることができます。これにより、データから予測パターン、クラスター分析(セグメント)、関連性、相関関係、傾向および異常(異常値、サプライズ)を発見します。

1. センサーからのシグナルの強さ:(ソーシャルメディアでさえ、顧客センチメント「感情」と顧客エンゲージメントのセンサーであることに留意してください。)
あなたはシグナルの強さを特徴づけることができ、時間の関数として追跡することができます。例えば、リアルタイムで広告キャンペーンをしている間、あなたは顧客の感情を測定することができます(スーパーボウルやワールドカップの試合中に行われる広告、または、あなたがモニターしてデータをとるあらゆるリアルタイム・イベントの間に行われる広告のことです)。

あなたは、N3、N2、N1、P0、P1、P2、P3のような、シンプルなスケールでシグナル強度を評価することができます。変動順は、N3(非常にネガティブ) < N2(ネガティブ) < N1(少しネガティブ) < P0(どちらでもない < P1(少しポジティブ) < P2(ポジティブ) < P3(非常にポジティブ) になります。

リアルタイムでのデータストリームに適用される、特徴付けられたセットは、完全なデータセットを圧縮して表示し、尚且つ探索中の重要なシグナルを、簡潔かつ有益な方法で提供します。もし、 ( P1 P1 P0 P0 N1 N2 N2 N2 のような) あるパターンを見たら、あなたはある種の行動を取るかもしれませんし、(P1 P1 P2 P2 P3 P2 P3 P3 のような) 反対のパターンを検出すれば、異なる行動を取るかもしれません。トレンドや予測パターン、または外部イベントの相関関係を発見するために、我々はこれらのキャラクタリゼーションを使用できます。

2. 連続する数値の変化: あなたは、シンプルなキャラクタリゼーション(特徴付け)を利用して、連続する数値におけるデータ値の相対的な変化を表示することができます。たとえば、あなたは、連続的な短い時間間隔(数分だろうと、数十秒だろうと構いません)に渡って、金融市場において株の取引価格の変化を測定することができます。変化は、上昇 (U)、下落 (D) または、変化なし (0) のいずれかです。

株価の動きは、UUUDUU00UU のように10回に渡る上昇である場合があります(一時的な上昇傾向にあります)。また別の株は、DD00UDD00Dである場合があります(一時的な下落傾向にあります)。このようにキャラクタリゼーションを生み出すことは、一時的なパターンとして何千回も繰り返すことが可能であり、また、10回以上の上昇でも可能です。これらの一時的に連続するパターンを、数千の株式(または、あなたが測定しているかもしれない他の出来事)のために集めれば、(同じように変動している株を見つけるために)それらを分類することができるし、(他の株と完全に異なる)異常な動きをしている株を確認することもできるし、反対方向へ動く株(一方は上昇し、もう一方は下落する)を特定することもできるし、おそらく予測パターンを発見することさえできます(例えば、特定のパターンにはもう一つの特定のパターンが続く可能性が高い、と気付くかもしれない)。

これらの記号的なキャラクタリゼーション(U、D、0)は、連続する数字の変化を絶対的なものとして表したものであり、実数値を取り扱う負担がかかりません(実数値は、それぞれの値がほぼ確実に異なるので、かように複雑な連続する数値を分類したり相関関係を示したりすることは難しいのです)。一時的なパターン・キャラクタリゼーションの似たような組み合わせが、「景気回復はU字形、V字形、それともW字形?」という質問をした記事で利用されました。この例では、キャラクタリゼーションの U、V および W は、連続するデータ・ポイントの動きを表しています(例えば、W は DUDU を表します、そして、U が D00U を表す一方で、V は DDUU を表します)。

3. 購入品のカテゴリー:顧客ごとに異なる購入品のカテゴリーを表示するために、短いラベルを使用することができます。
例えば、小売店の顧客20人の購入品を以下のように分類するとしましょう:{BP, HG, M5}, {DC, RM, M5}, {FC, M5, PS}, {PS, FC}, {DC, FC}, {FC}, {DC}, {DC, RM}, {HG, DC, AW}, {M5, CD}, {CD}, {HG, CD}, {RM, FC, PS}, {MS, MC}, {DC, MC, RM}, {RM, BP}, {RM}, {CO, DC}, {CO, DC, RC}, {CO, DC, FC, PS}.
これらのラベルはそれぞれ、製品の特定のカテゴリーをキャラクタリゼーションしたものです。

たとえば、CO はコーラと清涼飲料を表しており、M[?]は音楽CD のカテゴリー(MC = クラシック; MS = ソフトロック; M5 = 少年バンド)を表すという具合です。あなたは、関連性とパターンを見つけ出すために、顧客の購買パターンを表したこれらの単純なキャラクタリゼーションをすぐに利用することができます。 – 顧客の20%(20人中4人)がPSとFCを一緒に購入していることや、PSを購入したひと全員がFCも購入していることを、あなたは発見するでしょう。

この場合、PSはピクニック用品のラベルであり、FCはフライドチキンのラベルです。ソーシャルメディアのようなマルチ・チャンネルの顧客データへアクセスできるなら、次回、顧客の誰かがサマー・ピクニックに行くつもりだということをソーシャルメディアに書き込んだときに、あなたはその人にフライドチキンの割引券(または他のソリューション)を送付することができます。結果として、顧客は(定価の)ピクニック用品と(割引価格の)フライドチキンを買うために、あなたの店に来るよう誘導されるかもしれません。

同じ製品カテゴリーに属している異なる製品を取りまとめ、一つのラベルを割り当てるなら、この連想形式はうまく機能します。長くて複雑な製品説明をこのように凝縮して表示させることで、構造化されていないデータをより構造化することができ、その結果、簡単かつ効率的に組織化したり、興味深いパターンを見つけ出すことができます。

4. データのメタタグ付け:我々が別の記事(「科学的なデータ発見と再利用のための共同注釈」)で議論したのは、どのようにしたら機械によって支援されたタグ付け(おそらく機械学習を使用)と、人間によって支援されたタグ付け(おそらくクラウドソーシングを使用)の両方を、検索、読み取り、再利用とビッグ・データ・コレクションからの発見のためにとても役に立つメタデータにつなげることができるか、というものでした。

メタタグは、本質的にはメタデータ(=「データに関するデータ」)です。メタデータは、データの内容と文脈を凝縮して表現したものです。例えば:日焼け止めと共にランニング・シューズを買う顧客グループを特定することと、ランニング・シューズと共にDVDを買う顧客グループを特定することは、運動を意識した顧客を2つのカテゴリー(一方は屋外を走る人々、もう一方は屋内でランニング・マシンの上を走る人々)に分別する手助けになるかもしれません。

これらの顧客についての多くのデータは、あなたにかなりのことを伝える2、3のメタ・ファクトに凝縮されました。そのようなメタタグは、アソシエーション・マイニング(例えば、レコメンダ・エンジンに用いられる)のために、あるいは異常検出またはクラスター分析(セグメンテーション)において使用できます。

これら4つの例それぞれに、我々はビッグ・データの凝縮された表現の実例を見ます。このようなキャラクタリゼーションは、完全なデータ・ストリームをコンパクトにした代用品です。それらによって、我々はより効率的(解決のために要する時間の点で)かつ効果的に、我々の発見用アルゴリズムを(我々のデータ・セットのより大きな部分上で – うまくいけば完全なデータ・セット上で)走らせることができます。

従って、完全なデータ・セットに含まれる多くの情報は、ここでは無視されています。それは、どんな自動化したデータ・パイプライン処理システムの範囲内であっても、キャラクタリゼーションを実行する前には、我々は慎重でなければならず、また、いくらかの調査分析をする必要があること証明しています。ビジネスのゴールにとって重要である、データの性質をキャラクタリゼーションが本当に表しているのかを我々は確かめなければなりません、そして、我々は、独立したテスト・データ・セットの中で期待される発見、出来事、分類および結果を確認する際に、キャラクタリゼーションが有効であることを確認しなければなりません。

キャラクタリゼーションを選択して測定するアプローチにおいて、我々が慎重で、秩序があり、科学的ならば、それらがビッグ・データ・コレクションからデータ駆動型の発見をするための、効率的かつ効果的な手段だと我々はわかるはずです。

あなたのデータ・キャラクタリゼーションに適用し、発見のためのビッグ・データを探検し始めるための優れたデータ科学テクニックは、異常検出です。そしてそれを、私は「驚きの発見」と呼びたいのです。斬新で、予想外で、驚くべきもの、またはパターン、またはあなたのデータ中の動き、― 未知の未知です!

この話題に関する詳細とやり方についてのいくつかのアドバイスについては、テッド・ダニング(MapRのチーフ・アプリケーション設計者)とエレン・フリードマンによる、オライリーから発刊された電子書籍をチェックしてください:「異常検出の最新動向」 キャラクタライゼーションを始めて、ビッグ・データ・コレクションの中にある、驚くべきパターン、トレンド、そして関連性をすぐに発見しましょう!サポートが必要な場合には、 MapR App Galleryを試してみてください。

そして、あなたのビッグ・データとあなたが創るそれらのキャラクタリゼーションの全てから、最大の価値と最大のROI(革新から得る利益)を手に入れてください。

こちらの記事もおすすめです