HadoopTimes

実践 機械学習:レコメンデーションにおけるイノベーション
技術情報

ビッグ・データ解析業務における”標準”の底上げ

大半のテクノロジーにとって成熟の徴候とは、標準の出現です。標準というものは、コミュニティ全体に渡ってそのテクノロジーを用いることを可能にし、推進し、測定し、そして恐らく管理するのに使用されます。標準化は、独立した利用技術の比較評価を向上させます。

規格とは、次のようなプロセスに関係するかもしれません。ビジネス・プロセスの改善(シックス・シグマなど)、ソフトウェア工学(CMM/能力成熟モデルなど)、品質マネージメント(ISO 9000/9001など)、教育の普及(全米統一教育基準など)、それに加え、データ・マイニング(CRISP-DM/データ・マイニングのための産業間標準プロセスなど)。規格は、行動規範(軍隊、医療現場、会計、そして法曹界にあるような規範)にも関係するかもしれません。他の規格は、デジタル・コンテンツ(以下を含む)に用いられています: 相互運用可能なデータ・エクスチェンジ(GIS、CDFまたはXMLに拠点を置くデータ標準など); (b) データ・フォーマット(ASCIIやIEEE 754など); (c) 画像フォーマット(GIFやJPEGなど); (d) メタデータ・コーディング標準(医療現場のためのICD-10、または文化、研究、情報の加工物のためのダブリン・コアなど); そして、(e) モデルを共有するための規格(データ・マイニング・モデルのためのPMML/マークアップ言語の予測モデル)。標準は至る所に存在しています。その多さゆえ、人々はこんな皮肉を言うのです:「標準のいいところは、多くの選択肢があることだ。」

規格は現在、ビッグデータとデータサイエンスの世界にも現れ始めています。そして、それらの専門職が成熟さを増していることを証明しています。私はHadoopのような標準プログラミングパラダイムのことを言っているのではありません。また、企業内検索の標準(それもまた標準ではあるけれども)のことでもないのです。 私が言っているのは、 「ビッグ・データ業務」(私たちがそのようなものがあると認めるならば)に関連した標準のことなのです。私はここでそれらの二つを解説し、三つ目を紹介します。

1. ビッグ・データ解析成熟度モデル – 実際のところ、解析能力成熟度の分野ではいくつもの“標準”が出現しています。ただし、幸いにもそれらにはあまり違いがないので、ひとつに纏まりそうです。これらの一つは、TIBCOが呈示したものです。 – 解析成熟度に対する彼らの6つのステップは、次の通りです:測定、診断、予測、最適化、運用可能化、自動化、そして変換。もう一つの例はSAS Analytics Assessmentが示したもので、それはいくつかの分野におけるあなたのビジネス解析に対する準備と能力を評価します。B-eye ネットワーク解析成熟度モデル は、ソフトウェア工学のCMMを模倣しています。 – 成熟度の6つのレベルは、次の通りです:レベル0 = 不完全;レベル1 = 遂行済み;レベル2 = 処理済み;レベル3 = 確定済み;レベル4 =量的に処理済み;そして、Level 5 = 最適化済み。

この分野での最も“成熟した“標準は、恐らく IDC Big Data and Analytics (BDA) MaturityScape Frameworkです。このBDA フレームワーク(インテント、データ、テクノロジー、プロセスと人々の5つの中心要素にわたって測定されたもの)は、5段階の成熟度で構成されており、上掲されたものと本質的に同等のものです。: その場しのぎ、日和見的、再現可能、処理済み、そして最適化済み。IDC BDAフレームワークに基づくある公益事業業界の調査分析は、高達成度のBDAユーティリティを最も際立たせるトップ10の特徴を明らかにしました。― こちらの記事は多くの優れた洞察が含まれており、関連するIDCレポートをリンクしています。

これらの全ては、解析において成熟度の優れたモデルです。しかし、これらの様々なモデルがあまりに理論的であるとか、不透明であるとか、はたまた到達不能であるとわかったならば、あなたのビジネス解析がゼロ地点から認知解析へ至るまで全行程へ進めるように、私はより実用的なモデルを提案します:記述的なモデルから、診断的、予測的、規範的、認知的なモデルへの移行を提案します。

2. 業務上の行動データ・サイエンス・コード – データ・サイエンス協会は、業務上の行動コードをデータ科学者のために正式のものにしました。業務上の標準的な振る舞いに関するこの広範囲なモデルは、9つのルール・カテゴリーの下で非常に詳細なガイダンスを提供します:用語、能力、業務上のサービスの範囲、依頼人とのコミュニケーション、機密情報、利害対立、見込み顧客に対する敬意、データ品質とエビデンスの品質、そして、誠実さの維持(不正行為の例を含む)。従って、データ倫理学は、データ・リテラシーとデータ・サイエンスの必須要素です。データ・サイエンスの教育プログラムは、倫理問題をカバーしなければなりません。たとえば、G・メーソン大学のData Ethicsコースは、これらの目的に対処しています: 「インターネット時代におけるデータおよび情報の広範囲にわたる流布によって生じている深刻な倫理問題に関する活動と議論に、学生は参加します。学生は、倫理が科学におけるデータの使用と解釈に適用されるということを深く理解するようになります。統計的かつ科学的な事例研究に加えて、彼らが将来、企業や政府や大学での仕事で直面するかもしれない実際的かつ倫理的な難問を学生は呈示されます。更なる利益として、学生はRCR(研究の確実な実施)証明書または他にHSR(研究の被験者)証明書を手に入れます。」コースの一部として、学生は優れた古典 “How To Lie With Statistics(「統計でウソをつく法」)” を読むことを求められます。それは統計の不正使用と濫用についての(何をすべきでないかについて示すことを目的とする)深刻でユーモラスな例を提供しています。

3. 意味のある使用(MU) – ヘルスITの仕事は、EHR(電子健康記録)技術を使用するためのMU基準とステージを確立しました。特にHERの使用がビッグ・データ解析(とりわけヘルスケアにとって)の形式であるので、類似したMU基準がビッグ・データの解析業務で多くの意味をなすと思われます。ビッグ・データ解析のためのMUの3つのステージは、このようなものです:ステージ1 – データ収集と共有;ステージ2 – さらに進んだビッグ・データ解析の実行と加工;そして、Stage 3 – 結果の改善。

ヘルスケアにおけるMUの目的は、ビッグ・データ解析にも転用可能です:(a) 品質、安全、効率を改善し、不一致を減らす; (b) 投資家を引きこむ; (c) 調整と結果を改善する; そして、(d)はプライバシーと情報の安全を維持する。かなりの努力が、ヘルスケアにおけるMUの発展に注がれています。 – その結果、ビッグ・データの専門家たちはそれらの先導に従って進むことができるし、MUにおける適切なベスト・プラクティスを確認することができるし、それらの使用法を解析の仕事へ転用することもできます。これの良い例は、記事 “From Meaningful Use to Meaningful Analytics. (「意味がある使用から意味がある解析まで」)” で示されています。

したがって、私たちがビッグ・データ解析の探求において進歩するにつれ、その分野は、テクノロジー、アルゴリズム、従業員のスキル、ベスト・プラクティス、そして仕事のガバナンスといったあらゆる面で成熟しつつあると私たちは確信するようになります。疑わしいと思うなら、周りを見渡してください – あなたが取り組んでいる問題に、多分誰かが立ち向かっていて、それに対処するために一つ以上の標準を提供しているでしょう。

こちらの記事もおすすめです