HadoopTimes

実践 機械学習:レコメンデーションにおけるイノベーション
ソリューション

問題のあるビッグデータプロジェクトの認識と救済ーマネージャが知るべき共通の落とし穴とベストプラクティス

あなたは分析を行ったら、多くのビッグデータプロジェクトが計画通り進まないことが分かるでしょう。CIOとビッグデータに関する Infochimpsのあるレポート によれば、ビッグデータプロジェクトの55%は、全体ビジョンを持つトップマネージャと実際の遂行にあたる現場との間のコミュニケーション不足が原因で失敗するとあります。 その結果と言うと、プロジェクトは企画段階で約束した利益を達成できませんでした。

チームのデータ分析プロジェクトを順調に進めるために、ビッグデータプロジェクトが失敗しかけている兆候のリストと、自分の業界経験に基づいて問題の修正方法・データ分析の提案をまとめました。

プロジェクトは常に拡大していきます

オックスフォード大学と共同で実施されたマッキンゼーの調査によると、大型ITプロジェクトでは、通常、45%が予算超過、7%が計画遅れになっており、一方では、予想よりも56%少ない価値しか産み出さないとあります。 ステークホルダーが魔法からとけてしまう典型的な理由は、不十分に定義された成功基準であり、プロジェクト成果物の遅延を伴うことが多い。 こういった障害を乗り越えるヒントは、以下の通りです。

  • プロジェクトが長期間「90%終了」状態であることに気づいたら、造るのを止める。
  • プロジェクトが定義された目標に到達したらシグナルを出す。測定できる重要業績評価指標(KPI)を定義する。 成功がどのようなものか知らなかったら、成功に気づくことはできない。 KPIの例として、プロファイリング、パーソナライゼーション、カスタマー生涯価値分析による顧客満足度の増大、支払い分析により改善した調達と購入の生産性などがある。
  • スコープをロックし、新しいマイルストーンを定義し、アウトプットできないタスクをプロジェクトプロセスから少しずつ削除する。
  • ビジネスの節約、利益(いずれか、または両方)を生むプロジェクトの性質に優先度をつける。
  • 基礎がしっかりしたら、プロジェクトを進める。

ほとんど利用者がいない

造ってみたものの利用者が来なかった。ご安心ください。それはあなただけではありません。 企業のビッグデータプロジェクトに関するガートナーの調査によると、70%の回答者には、Hadoopを利用するユーザはわずか1~20人で、4%は、ユーザーが全くいないと報告した。

この問題に取り組む前に、ビッグデータ導入になぜこんなに熱意がないのか理解する必要がある。 ビッグデータを使う価値を十分に理解していないのか。あるいは、ビッグデータを使うために必要だと信じている高度な技術スキルに恐れをなしているのかも知れない。 この問題への提案を以下に記します。

  • 最終製品より反復プロセスを強調して、ユーザーが調べることを許可する。 ほんのわずかでも更に良い結果、プラスの結果につながる早いフィードバックループが生まれる。
  • Apache Drillのようなツールを利用して、ユーザが持っているSQLスキルを活用する。 そうすることによって、ユーザが新しい技術をすぐ学習する必要がなくて、早く質問できるようになる。
  • 知識向上のため、技術者でない人にビッグデータ技術の基本を説明するトレーニングを行う。 このトレーニングは、問題解決のための新しいアイデア、アプローチを技術寄りの人が理解することにも役立つ。
  • 経営者のサポートが得られる場合、従業員の業績インセンティブと年間目標と会社のビッグデータプロジェクトの目標の調整が取れれば有益である。

まだサイロの中にあるデータ

ビッグデータがその潜在力をフルに発揮するために、データストリームを収束する必要がある。しかし、社内政治または社内方針がその流れを止めてしまう場合がある。各部署が、いまだに自身のデータだけに基づいて(主に)ビジネス上の判断を下している場合、発達上の問題がある。例えば、過去の販売データだけを見るのは、販売トレンド、顧客関係管理(CRM)、ソーシャルメディアデータを合わせて見るよりも有用性は格段に下がる。 過去だけで見ていれば、販売の下落理由は季節的な減速であり無視できると考え、会社を安心させるかも知れない。しかし、CRMやソーシャルメディアのデータは、ブランド価値に影響を与え、即座に取り組む価値がある進行中の問題を指摘するかもしれない。組織データが分断していると気付いた場合、次のようなデータを連携させるためのアイデアがある。

  • 各部門での達成が合意できる決定的に重要な共通目標を定義し、サイロからデータを取り出すためにその目標を使う。 一例を上げれば、各サイロからデータを取り出し、お客様がウェブサイトに寄り付く、あるいは離れている原因の新しい詳細を確認する。 単純な修正でないことは明らかで、実施するにはトップダウンのサポートが必要になるだろう。
  • データが適切に浄化、検証、保証されていることを確実にするための計画を準備する。 Apache Drillや、Apache Spark のようなツール類は、あるフォーマットから別のフォーマットにデータを変換したり、データのフィールドを消去するために利用できる。 このタイプの計画は重要である。チームが、複数データソースからユーザへの共通ビューを届けることができるからだ。 ある特定の方法で、個人がデータを見ることに慣れている場合、データソース間の混乱を防止することもできる。
  • ユーザが構造的、半構造的、非構造的データの解析をサポートするソリューションにユーザが立ち寄れること。このゴールは、プロセスを単純化し、ユーザーが痛みに感じる点を取り除くことである。 Apache Drillのようなツールは、SQLを使用しているが、この障壁を乗り越えるのに役立つ。

質問の回答は役に立たない

回答が役に立たない場合、あなたのユーザ(つまりデータサイエンティスト)は、間違った質問をしている可能性がある。 ビッグデータプロジェクト周辺の期待を管理することは重要である。 まず、正しい質問を誰もしていないか、正しいデータセットに問い合わせていない可能性がある。 悪い質問例は、平均値からなる数字の集合を合計することであろう。 良い質問をするのは難しいことでもあるので、データソースの例を与えて質問方法をデモする。「ある期間内にある地域からこのウェブサイトを閲覧した人数は何人か?その地域の人口構成はどうか?」 初期段階では失敗を覚悟するべきです。役立つ質問の構成の仕方、そしてビッグデータの潜在能力をフル活用する方法の知識を普及するため、人と作業しましょう。追加のヒントは以下になります。

  • 望ましい結果を最初に達成することで、ユーザーがプロジェクトを定義するように奨励する (例えば、コンバージョンを向上させる)。科学的プロセスのように、あらかじめ期待値を定義する。
  • その結果を上手にサポートするため、どのビジネス判断を下す必要があるかを決定する(例えば、どのチャンネルを使うべきか?)。 どんなメッセージが心に響くか? いくら使うのか? 過去、何パーセントの見込み客をコンバートできると期待するのか?
  • 分析結果でプロジェクトを動かす。 結果の利益を定義し、成功を計測する。
  • 必要ならプロセスを調整し、他プロジェクトでも繰り返す。

ビジネスが変わった

企業では、大きなITプロジェクトを導入するまでに、典型的に言って18か月から24か月要する。  その間にビジネス条件は変化し、 新コンプライアンス規制がデータ管理プロセスを変え、 企業内の人材は、別のチャンスを求めて会社を去るかもしれない。 数年前に下された技術判断は、今日あなたが下すような判断ではないことかもしれない。

明らかに、このような状況は、稼働後には費用効率よく修正することは困難である。 まだ開発工程であれば、プロジェクトが前進するにつれ、変化するニーズがプロジェクトに合うことを確認するために、以下のベストプラクティスからいくつかを作り込むことができる。

  • 限定されたソリューション一式にロックインされないように、ベンダーとユーザコミュニティから強力なサポートがあるITソリューションを選ぶ。 Apache Drill ( ANSI SQLをサポート)、Apache Spark ( Java、Scala、Pythonなどの普及したプログラム言語で使用できる)のようなツールは、よい選択だ。 ビッグデータ業界で普及して使われ、多数の専門分野から得られるスキルを利用するソリューションを探す。
  • Apache Sparkなどのような、多様なデータ解析スキルがあるユーザ向けに設計されたソフトウェアを選ぶこと。 ユーザ数が最大化できる少数のテクノロジーの方が、各ユーザに個別のテクノロジーをサポートするより、はるかに簡単にスタートできる方法だ。 経験が増えていくと、新しいテクノロジーが常に追加される。
  • プロジェクト企画段階の早期に、社内から代表者を連れてきて、プロジェクト進行中にも常にかかわってもらう。 定常的なコミュニケーションがあると、ビジネスの方向性や技術がどんなに大きく変わっても、チームで調整できる時間余裕を与えてくれる。
  • 全事業部門のステークホルダーと効率よく関わることができるプロジェクトリーダーを任命し、ビッグデータプロジェクトと主要なビジネスニーズの整合を確実にすること。
  • ビルド、導入工程の期間にチェックポイントを設定し、ゴールとニーズが変わっていないことを確認し、ビッグデータプロジェクトが頑丈なビジネス目的に集中して変わらないこと確認すること。

最後に持って帰るもの

計画の小さな部分を速やかに実現すれば、そのような部分はビジネス価値を素早く証明できるので、その後の実現はもっとうまく行く傾向がある。機能と新しい情報の小さな部分を使ってビジネス価値を証明することが、規模のあるプロジェクトのサポートを獲得し、志気を高めるために最良の方法である。参加者全員が早期にメリットを理解し、プロジェクトが成功に向かって進んでいる確信を得ることができる。

プラスとマイナスのフィードバックが得られるコミュニケーションチャネルを確保する。 不満を持つユーザが、プロジェクトの努力を妨害することが、最も起こって欲しくないことだ。そういうユーザーが不満に思っていることをあなたは知らない。

最後にひとこと。誰に技術的問題を話すべきか。ユーザーが知っていることを確実にすること。 技術問題を管理する「ゲートキーパー」、または、ユーザーと相談できるテーマに特化した専門家のリストは、プロジェクトの成功にとって一番重要である。

著者情報

JimScott

ジム・スコット

(MapR Technologies エンタープライズ・ストラテジー&アーキテクチャー・ディレクター)

「集計」から「機械学習」への入門

「集計」から「機械学習」への入門
最近「機械学習」という用語を聞く機会が増えたのではないでしょうか?

「ビッグデータ」「データサイエンティスト」ブームの後押しを受ける形で、データを活用した施策実施への一つの方法論として、機械学習が注目を集めています。機械学習は、従来の集計をベースにした分析とはどのように違うのでしょうか?

本稿では、機械学習の概要について説明することでその疑問にお応えするとともに、機械学習を実践するために必要となるソフトウェアについてもご紹介します。

無料ダウンロードはこちら

こちらの記事もおすすめです