HadoopTimes

CONVERGEN TOKYO 2017
技術情報

ビッグデータ分析の基礎!13の分析手法解説

ビッグデータ分析

今回紹介するのはビッグデータ分析における13の分析手法です。これが全てではありませんが、実際にビッグデータ分析現場で使用されている手法を簡単に解説していきます。

今後ビッグデータ分析を始めたいと考えている方々の参考になればと思います。

クロス集計分析

アンケート調査によく利用される分析手法であり、設問に対して回答者の属性などの項目を交えて集計するデータ分析手法です。

例えば数百人のユーザーに「1日のスマートフォン使用時間は?」というアンケートを取ったとします。

このアンケート結果に性別や年代といった回答者の属性を加えることで、縦軸と横軸をモデルとした集計が可能です。

クロス集計分析を用いることで年代や性別、地域などセグメントごとの傾向を把握することができるので、世論調査などにも用いられます。

アソシエーション分析

アソシエーション分析とは事象の関連性を導き出すことで、マーケティングに有用な情報を導き出すことができます。有名な例で言えば「紙おむつとビール」でしょう。

とあるスーパーマーケットで紙おむつとビールが同時に購入されていることが多く、分析してみると紙おむつの買い出しを頼まれた父親が同時にビールを購入。両商品の棚を隣同士にしたところ売上増加につながったという事例です。

この事例自体は都市伝説的なところもあるので真偽のほどは定かではありませんが、アソシエーション分析を説明する上ではよくできた事例です。

事象の関連性を導き出せれば消費者やユーザーの行動パターンを掴むことができます。

バスケット分析

概要はアソシエーション分析と変わりませんが、分析対象が消費者の購入商品に限定されているところが違います。つまりバスケット(買い物かご)に何を入れているかを分析することで、消費者の購買パターンを分析するのです。

ECサイトを利用するとよく「この商品を購入した人は、こちらの商品も購入しています」というレコメンドを見かけますが、これはまさにバスケット分析を用いたものです。

同じ趣向のある消費者は同じ商品に興味を持つ可能性があることから、売上増加に効果的な分析です。

因子分析

複数の変数間の共通因子を見つけ出すことで関連性を知ることができます。ビジネスに限らず幅広い研究分野にも利用されるのが特徴です。

膨大かつバラエティに富んだデータ群の中から共通因子を見つけ出し、因果関係を導き出すことができれば相関図を作ることができます。

こうした分析結果からマーケティングに展開することで、効率的に売上げ向上につなげることができるのです。

ABC分析

在庫管理の現場に多く利用されているデータ分析手法で、商品や物事にランク付けすることで状況を整理します。

≪例≫

商品ごとの売上げを確認>多い順に並べる>全体の売上げに対する各商品割合を算出>割合上位の商品から累積>累積値をもとに商品をABCでランク分け

このプロセスを踏み分析することで単純な売れ筋や死に筋だけでは測れない、商品の購買状況を知ることができます。

クラスター分析

異なる性質のものが混ざり合っているセグメントに対し、グループ分けすることで相関関係などを導き出すための分析手法です。

ユーザーのセグメントやブランドポジションの確認など、幅広いシーンに活用されています。

ロジスティック回帰分析

ロジスティック分析では「YES」か「NO」でデータを収集し、物事の発生率を求めるデータ分析手法です。

例えば「商品Aと同時に購入されたものは何か?」といった多角的データをを求めるのではなく、「商品Aを買ったか買わなかったか?」2択で発生率を分析していきます。

発生率を予測することができれば、マーケティングなど幅広いシーンに活用可能です。

線形回帰分析

クロス集計分析よって得られるグラフでは、曲線によってデータ分析結果が表されます。

線形回帰分析ではこのクロス集計分析で得たグラフに、論理的に考え出された直線を引くというデータ分析手法です。

各データの相関関係を知ることが出来ます。

主成分分析

「次元の縮約」とも言われている分析手法で、たくさんの項目(変数)があるデータに対し、ごく少数の項目へ置き換えることでデータ全体の見通しを良くしてから分析を行います。

データ変数が多くなるほど複雑化してしまうため、主成分分析では分析しやすい環境をまず整えるのです。ちなみにクラスター分析の混同されがちです。

一方で変数を縮約すると「一部の情報を捨てている」というデメリットもあるので注意が必要になります。

決定木分析

「If than(もしも~だったら)」という仮説を繰り返していくことで、結果を予測するための分析手法です。

一つの原因からいくつも予測を立てていくことで、その経過が枝分かれしていくことから樹木のようなモデル図になるので「決定木」と呼ばれています。

主にリスクマネジメントなどのシーンで利用され、時に「回帰木」や「分類木」とも呼ばれます。

グレイモデル

過去のデータをもとに分析を行い、それに続く数値をグレイ法(灰色理論)で予測していきます。

明白になっているデータは“白”、不明なものを“黒”、曖昧な状態を“灰色”と定義し白データと黒データをもとに灰色データ(今後)を予測するデータ分析手法です。

決定木分析同様にリスクマネジメントなどに用いられます。

独立性の検定

クロス集計分析と共に用いられるデータ分析手法で、2つの変数の間に関連性(独立性)はあるのかを求めます。

アンケート調査などによって得たグラフをもとに物事の関連性を求めていくわけですが、そもそもクロス集計分析とは独立性の検定ありきの分析手法と言えるでしょう。

単位グラフを作成しても関連性が見えなければマーケティングや経営に活用することはできません。

軽量時系列分析

軽量時系列分析では変数間の関係を動学的関係を明らかにすることで、ビジネスやマーケティングおける仮説や理論を検証するための分析手法です。

簡単に言うと「流動的に変化していくデータを分析して、流れに乗ったマーケティングを展開していこう」というものです。

データ分析のための基盤を作るには?

ここまでいくつかビッグデータ分析に必要な手法を紹介してきました。しかし、まず第一に重要なのは、分析手法ではなく基盤です。

データ分析を行える環境あってこそ初めてビッグデータを活用できるので、今後ビッグデータ分析を取り入れようと考えている企業では無視できません。

また、ビッグデータでは時にTB(テラバイト)やPB(ペタバイト)以上のデータ量を扱うこともあるので、高速なデータ処理環境は欠かせません。

そこで多くの企業に選ばれているのがHadoop(ハドゥープ)です。

Hadoopは複数のサーバにデータ処理を分散し、並列処理することでTB・PB級のデータを高速に分析することができます。ビッグデータ分析においてはまずこうした環境を整えることこそ、明日の事業拡大に繋がると言っても過言ではないでしょう。

まとめ

いかがでしょうか?今回はビッグデータ分析における主要な分析手法を紹介しました。ただ、すべての分析手法を使用する必要はありません。大切なのはデータ分析における目的をしっかりと定め、目的に沿った分析を行うことです。

MapRは、Hadoopを基に、幅広いミッションクリティカルなリアルタイムでの製品使用をサポートするエンタープライズグレードの実績あるプラットフォームを提供しています。MapR Converged Data Platform向けApache Hadoopでは、オープンソースのHadoopソフトウェアとエンタープライズグレードのMapRプラットフォームサービスを結合させることで、Hadoopをより強力で安全なものにしています。MarRを用いたHadoop環境の構築でビックデータを活用するビジネスシーン日本国内でも数多く誕生しています。

「いまさら聞けない」データ分析の総ざらい

「いまさら聞けない」データ分析の総ざらい
昨今、「データ分析」の重要性が強く叫ばれています。ただ、それはアナリストやデータ・サイエンティストと呼ばれる“専門家だけが担うことができる難解なもの”という誤解を持たれてはいないでしょうか。

データ分析という手法は、IT のパワーを活用することで、どんな企業も導入・実践することができる“現実解”なのです。

データ分析とはいかなるものなのか――。

この資料では、これからデータ分析を始める方や始めたが、もう一度初歩知識を復習したい方々向けにデータ分析の基本を解説します。

無料ダウンロードはこちら

こちらの記事もおすすめです