HadoopTimes

実践 機械学習:レコメンデーションにおけるイノベーション
最新動向

意思決定ワークフローにおけるアナリティクスの活用

Apache Sparkで意思決定ワークフローに取り入れる

データ主導型ビジネスはアナリティクスを利用しています。これは意思決定に対して情報を提供してサポートするためです。多くの企業ではマーケティングや営業、ファイナンス、オペレーション部門がデータアナリティクスを最も早く採用し、他部門はその後に追随する傾向があります。現在、多くの企業では、アナリティクスを全従業員ではないとしても、大半の従業員のごく日常のワークフローの一部とすることを目標としています。一般的にこの目的を達成するためには、企業文化を転換し、ユーザフレンドリーなデータアナリティクスツールの利用が求められます。

ビッグデータはデータサイエンティストに限定されるべきではない

データ分析を企業全体のワークフローに統合するプロセスについて話す際に、ビッグデータの専門家は、ユーザーが容易にSQLスキルを活かしてデータを問い合わせことができるかを楽しそうに話すことが良くあります。問題は、全員がSQLスキルを持っているわけではないということです。SQLが何かも知らない人がいることでしょう。

データ主導型リーンビジネスへの転換を計画している企業は、実は全従業員がデータサイエンティストである必要はないという事実を念頭に置いておくと良いかもしれません。トレーニングの取り組みの大半は (必要に応じて基本的なSQLクエリの実行方法も含め)、事実に基づいた意思決定を伴う仕事をしている従業員を中心に行いましょう。

ITがスキーマを管理してETLタスクを設定するのを従業員が待つのは非生産的です。忙しい企業では、分析用データの準備ができた時には、利用可能なデータとしての関連性が多少失われてしまっているかもしれません。代わりに、Apache Drillのような堅固でセルフサービスのデータ分析ツールを提供すれば、ユーザーはHadoopに格納されているデータから最大限の価値を抽出することができるようになります。これにより従業員はネイティブフォーマットのスキーマレスデータやネスト化されたデータ、スキーマが急速に変化するデータを、限られたITの関与またはITの関与なしに、自由に利用できるようになります。

またセルフサービスのデータツールにより、探索的クエリも実行できるようになります。ユーザーはITが追加のデータセットを準備するのを待つ必要なく、データを直接探索して、難なく分析を広げることができます。そして既知の構造化データから対象を広げ、半構造化データや非構造化データも分析できるようになります。後者にはコールセンターのログや動画、スプレッドシート、ソーシャルメディアのデータ、クリックストリームデータ、ウェブのログファイル、外部データ (例えば、公表されている業界データ) などがあります。そうすることで、ビジネスは全体像を把握し、利用可能な知見をその場で得ることができます。

Apache Spark: ビッグデータ分析に新たな効率化をもたらす

直近またはリアルタイムで実施したデータ分析に依存するアジャイル企業は、大きなデータセットを素早く処理できるソリューションも必要としています。インメモリのデータ処理フレームワークのApache Sparkは、ますます最適なソリューションになります。

Sparkはデータの並行分散処理ができるフレームワークです。Yarn、Apache Mesos、または独自のスタンドアローン型クラスタマネージャを使用して、Apache Hadoopを通じて導入できます。その他のデータ処理フレームワークの基盤になることができ、ScalaやJava、Pythonなどのプログラム言語に対応しています。HDFS、Cassandra、HBase、Hive、Tachyon、またHadoopのあらゆるデータソースのデータにアクセスできます。

データセットはSparkのインメモリに保持することができ、これによりアプリケーションのパフォーマンスは著しく向上します。また、Sparkはディスク上で動くアプリケーションのスピードを改善し、MapReduceはインタラクティブクエリやストリーム処理を遥かに効率的にサポートできるようになります。
さらに別の分散システムが、例えばバッチアプリケーションやインタラクティブクエリ、反復アルゴリズム、ストリーミングを処理する必要はなくなります。Sparkでは同じエンジンがこれらすべての処理タイプに対応しており、管理の手間を削減し、プロセスを統合しやすくします。

企業は長期に渡りSparkの利点を当てにすることができます。Sparkは当初カリフォルニア大学バークレー校のプロジェクトとして始動し、2013年にApacheソフトウェア財団へと移り、2014年にはトップレベルのプロジェクトになりました。ApacheのトップレベルのプロジェクトにはHadoop、Spark、httpdなどがありますが、トップレベルのプロジェクトであるということはサポートする開発者やユーザーの強力なコミュニティーがあり、その価値の証明を示しています。“Powered By Spark” (Sparkを採用している企業) ページには現在50社以上が名を連ねています。

データ主導型インテリジェンスの活用

ビッグデータは、収集やクレンジング、統合、管理、ガバナンス、セキュリティ、分析、意思決定といった複数のプロセスを具体化します。いずれも企業が自社をデータ主導と見なすには必要なプロセスになります。不思議なことに、意思決定プロセス自体への注目は最も低い傾向にあります。

ビッグデータのプロジェクトから本当にROIを実現して、ユーザーが分析主導の意思決定をワークフローに取り入れるには、速いツールや確かな計画以上のものが求められます。データについて面白い新たな知見を素早く発見しても、企業がその新しいインテリジェンスに対して同様に迅速かつ効果的に対応できるプロセスがなければ何の利点もありません。ビッグデータのプロジェクトを考える (または見直す) 場合は、分析を行動に落とし込む実行プロセスを組み入れるようにしてください。

そして最後に、リアルタイム分析についてひとこと忠告です。その瞬間のことに没頭していると長期の目標を見失いやすいです。ビジネスの目標とデータ分析の活動の整合性を確実に取り、データ主導のイニシアチブの成功を監視するためのKPIを定めるようにしてください。ビッグデータは企業に持続的な競争力をもたらさなければなりません。

Sparkの詳細については、James A. Scottによる無料のインタラクティブeブック、Getting Started with Apache Spark: From Inception to Production (Apache Spark入門: 初めから本番環境まで) を参照してください。

著者情報

JimScott

ジム・スコット

(MapR Technologies エンタープライズ・ストラテジー&アーキテクチャー・ディレクター)

導入事例:株式会社ぐるなび

導入事例:株式会社ぐるなび
飲食店の検索をはじめとして、「食」にこだわるビジネスを展開している株式会社ぐるなびは、2010年からApache Hadoopを導入し、ビッグデータの分析に取り組んできました。しかし、オープンソースの運用に関する課題を抱え、より安定的かつ高性能なビッグデータ解析を実現するために、MapRを採用しました。

こちらの資料では、同社の課題である、

  • Apache Hadoopの障害による停止

  • オープンソースを運用する負担の増大

  • ビッグデータの処理速度の問題


を、MapRを導入することでどのように解決したのかをお話いただきました。

無料ダウンロードはこちら

こちらの記事もおすすめです