HadoopTimes

ストリーミングアーキテクチャ Apache Kafka とMapR Streams による新しい設計手法
最新動向

定性データ: コンテキストがビッグデータに意味を付与する

「測定できないものは理解できない」といった人がいる。同じ考え方で、「測定できないものは存在しない」というのもある。これは間違った考え方、つまり誤謬であり、実際マクナマラの誤謬と呼ばれることがある。このような考え方は、国務でも個人の治療でも深刻な結果をもたらす (例えば、がん患者に「無増悪生存期間」の指標を適用した場合、腫瘍が減れば病気に勝ったとして称えられるが、その一方でそれに伴う生活の質がの低下することについては無視される)。

同様に、データサイエンスやデータ分析の世界では、良く同じような考え方に引き込まれる。定量データは数学モデルにそのままインプットできる。定量化できる予測モデルや規範的モデルの魅力は耐え難い。モデルのアウトプットが定量的ならば (例えば、正確度、精度、再現率やその他の検証指標)、モデルへのインプットも定量的で良いのではないだろうか? それがデータ駆動の本質ではないのか?

「データ駆動」というと私たちは何を見落とすか、それは実際に「エビデンスベースド」を言うことを意味する。証拠は定量的なものだけではない。同様に、データも定量的なものだけではない。その結果、より定量的であろうと急ぐあまり、定性データセットの計り知れない価値を見落としているのである。定性データの価値はいくつかあるが、下記が含まれる:

  • 分析モデルの正確度、有用性、説明力を増す特徴を更に提供する。
  • 定量的データを適切なコンテキストの中に置く (そうすることにより、モデルが誤ったコンテキストで誤用されるのを防ぐ)
  • モデルの結果に人間的なストーリーや説明を添えたり、それを受け入れる (そして最終的に擁護する) のに役立つ。
  • 名前が暗に示すように、分析結果の品質を評価 (更には実証) するのに役立つ。

定性データに関する4つの基本的な質問に対し回答することで、これらの考えについて掘り下げていく。

1. 定性データにはどのような時に遭遇するのか?

定性データは調査、顧客からの返信用紙、ドキュメント、更にソーシャルメディアからも取得できる。これらは非常に貴重な情報源であり、企業は重要な洞察を得るため既に収集し、活用している。以前は定性データの分析はとても人手のかかる作業であった。これは、ドキュメントに関するクエリを単にデータベースに対して実行すれば、視覚化に利用できる数値を取得できるといったものではないからである。

このため、過去の定性データ分析の範囲は概して限られていた。しかし、その状況は急速に変わりつつある。定性データを定量的データに変換する巧妙な方法がいくつも出てきている。それにより、定性データにも定量分析の力を余すことなく活用できるようになった。

変換方法としては、採点 (特定の定性的回答やコメントに数値で順位や点数をつけること)、感情分析 (定性データが表す感情に正の値もしくは負の値を割り当て、その感情の強さに数値をつけること)、テキスト分析 (文字情報の内容を例えばトピックモデルやヒートマップといった定性的方法で要約すること)、そして自然言語処理や意味処理 (文書や口頭の言葉から意味を抽出すること) 等がある。

その結果、定性データは既にビッグデータの世界では認められており、ビジネスへの洞察や価値を提供するのに平等の機会を与えられるべきである。

2. 洞察を導き出す時の定性データと定量的データの類似点と相違点は?

定性データは一般的に定量的ではないデータのため、これらのデータは非構造的で通常はテキストである。顧客調査、返信用紙、オンラインフォーラム、ウェブフォームのフィードバックコメント欄、記述コメント、コールセンターへの電話、事例証拠 (例えば、営業やマーケティングチームが集めたもの)、報道等から得たものである。

その結果、そのようなデータから構造や客観的な洞察を抽出するためにはモデルが必要になる。収集した言葉やコメント、調査に対する回答は、どのようにモデル化するのか? それぞれの内容にどれだけの重みを付与するのか? 複数の情報源をどのように組み合わせて統合するのか? 定量的データを扱う時に全く同様の質問に対してする回答と、これらの質問に対する回答は、さほど変わらない。

大きな違いは、定量的データは既にスプレッドシートで扱ったり、ダッシュボードに表示したり、グラフに表示したりできる形であるということである。定性データをどのように定量的データに変換するかを決める際に、いくつか決めなければならないことがある (それは主観的なものである場合もある)。これは挑戦であるが、同時に大きな機会でもある。言語には遥か多くの機敏や複雑さが含まれている。これは私たちが、定性データソースから私たち顧客や従業員、パートナーについてより深い理解や細かな意味合いを抽出することに利用できる。

3. 定性データセットのデータサイエンスの分析、統計手順はどのように異なるのか?

まず、定量的データより多くの変換手法が必要である (0から1までの尺度でデータを正規化するので十分なこともあれば、変数を数学的な方法でまとめたり、それぞれの測定結果に数値で重み付けしてからあわせたり、異なる属性間の数学的類似性や距離を表す簡単な指標を定義したりすることもある)。

定量的分析では、モデルの実証はどちらかというと容易である。反対に、定性データ分析ではより洗練された巧妙な変換手法や実証するための指標を使用する必要があり、「正」、「誤」の価値を明確に定義するのは難しい (例えば、真陽性 対 偽陽性)。しかし、アウトプットがニ値 (例えば、このソーシャルメディアのユーザーは政治家候補AとBのどちらに投票しそうか?) の場合は、ロジスティック回帰分析の技法で十分である。

しかし、二値を検証する基本的な統計的検定 (仮説A 対 仮説B [もしくはNull仮説]) は、定性データに様々な意味合いや理解の度合いが織り込まれている場合 (つまり、検証すべき仮説の候補が多い場合) は使えない。リンク分析は定性データの解析に使えるひとつのアプローチかもしれない。この技法は複雑な知識ネットワーク上の複数ノード間の関連性を発見、研究するのに利用できる。リンク分析には定量的データは必要ない。むしろ、データは離散化している必要があり、連続数値データには依存しない。この場合、定性データは有利である。

4. 定性データセットを定量的データへ単純に(恐らく自動的に)変換して定量化するのであれば、結果として定性データセットはなくなるのか?

定性データはなくならない。むしろ、このビッグデータの時代、収集している他のどの種のデータよりも早く増えているだろう。しかし、確実に定性データの定量化は(既に目の当たりにしているよりも)更に進むだろう。それにより、定性データ用に驚異的な速さで生み出されている様々な分析アルゴリズムや技法を活用できるようになる。それでもなお、定量化してしまえば定性データは不要だという見解は間違っている。

定性データは「データストーリー」やデータ資産の最も重要な要素のひとつであり続ける。それから逃れられないし、逃げようとすべきではない。むしろ最大限活用し、最善のモデルを作成して意味や洞察を抽出し、収集している膨大な量の定性データを定量化できるより巧妙なアルゴリズムを探し続けようとすべきである。要するに、私たちは「更に規模を広げて」ビッグデータを収集、処理、解析しなければならない。そしてそのデータには、定量的データと定性データの両方が含まれていなければならない。

要約すると、定量的データと定性データの両方を分け隔てなく集約、分析、解析して初めて誤った考え方をすることを避け、データサイエンスの取り組みにより深いコンテキスト的意味合いを持たせることができる。ひとつのプラットフォーム上にある集中型「多言語」データ環境で分析ツールを共有してこれを実施することが、達成する一番簡単な方法である。このようなビッグデータエコシステムの集中は最近見られるようになってきており、特に最新のMapRの集中型データプラットフォームはこれに当てはまる。

Hadoopのおかげで異種データを分散型データアーキテクチャ上に保存でき、Apache Drillを利用してデータ (データベース、ドキュメント、テキスト、JSONデータオブジェクト等) に対しクエリを実行でき、Apache Sparkでこれらのデータをインメモリでリアルタイムに解析できる。これらにより、認知解析の期待に一歩近づくことができる。つまり、定量的と定性的なデータ全てに対し、適切な質問を、適切な時に、適切なコンテキストで質問できるようになる。

どの業界や状況で働いていようと、データを抽出できれば理解することができる。これが定性的および定量的に正しい考え方である。

著者情報

カーク・ボーン
(ジョージ・メイソン大学 天体物理学・計算科学教授)

ベンチマーク結果:SAS Visual Analytics on MapR Converged Data Platform

ベンチマーク結果:SAS Visual Analytics on MapR Converged Data Platform
この資料では、SASVisualAnalytics( 以下SASVAと略す)のインフラとなるMapR Converged Data Platform における環境構築および性能評価について評価・考察します。

評価・考察の目的

  • インストール検証においては、OS、MapR、SAS のインストール作業手順の確立、およびインストール時の設定値を洗い出しインストールの標準設定/個別設定を明確にし安定したインストールを支援する事を目的とします。

  • 機能検証においてはHadoop 機能にフォーカスしてSASVA のデータロード機能がMapR
    と連携して製品が所定の機能を提供できる状態であることを確認します。

  • MapR Hadoop ディストリビューションを採用することで、Apache Hadoop と比較し、
    システムの性能向上、システムの安定稼働、システム管理の用意性が実現出来ることを
    確認します。

  • 本検証報告は、製品導入における判定・補足資料として使用されることを希望します。


是非ご覧ください。

無料ダウンロードはこちら

こちらの記事もおすすめです