HadoopTimes

ストリーミングアーキテクチャ Apache Kafka とMapR Streams による新しい設計手法
ソリューション

マーチマッドネスの背後にあるメソッド

NCAAブラケットを完了させるときに検討が必要な順列は150クウィンティリオン個 (1垓5000京。クウィンティリオンはクァドリリオンの次の桁で10の48乗) あります。私たちのなかにはそのすべてを検討する時間がない人がいます。あなたがその人たちと同じように時間が不足している場合、この重労働をMapRに行わせ、クリスタルBボールによるパーソナライズされたブラケットを手に入れることができます。

この記事では、クリスタルBボールの方法論を説明し、それを利用してどのチームが2016年度のファイナルフォーに残るかについていくつかの予測を行い、どのチームが4月4日にヒューストンでナショナルチャンピオンに輝く予想ついての確率を提供します。あなたのオフィスプールの勝利を保証することはできませんが、あなたが完璧なブラケットを手に入れることがないことは約束できます。

メソッド

「スマート」なブラケットを完成させるのは、一見シンプルです。必要なのは、各試合で各チームの勝利率を決定し (合計で100%になるので、一方を定めれば足ります)、多数の対戦をシミュレートします。そして、もっとも可能性の高い結果を表にまとめるだけです。多くの事例に見られるように、簡単なように見える物事は多くの場合に極めて困難な事態でありえます。各チームの正確な勝率を決定することは、そのような障害の1つです。以下に、NYタイムズから抜粋した、ブラケットを選択するために使用される現在の高度な評価基準の概要を示します。

カスタマイズされたブラケット作成のゴールは、ゲームのファンダメンタルズを過去の結果に結びつけること、および、それらのオプションをユーザーに提示して、ユーザーがそれぞれの重要度を選択できるようにすることです。以下はそのオプションのリストです。

  • シード対戦の過去記録 – トーナメントの記録はいくつかの場所 () で入手できます。この情報からは、#2が#7と対戦したとき、#2がそれらの試合の73%で勝利したことがわかります。各地域からより低い (すなわち、より弱い) シードが登場する可能性が少なくなるので、シード (すなわち、#1~#16) に重きを置き過ぎないようにすることが大切です。
  • パフォーマンス対共通の敵 (MapRランク」) – GoogleのPageRankに基づく、図式ベースのテクノロジー。このアプローチについての2015年の記事はここから確認できます。このランキングの核はすでにシード対戦にまで練り上げられているので、これは後のラウンドまで実際には起こりません (1対2や1対1の試合が見られるまで)。シーズンランクでの意味のある差は、より低い (すなわち、より良い) ランクのチームの勝利確率を上昇せます。MapRランクは最強のチームはカンザス、オレゴン、ヴィラノーヴァ、ミシガン州立およびノースカロライナであると見ています。
  • Hoops ファンダメンタルズ – このカテゴリのためのブーストは、ここからダウンロードできる2015-2016シーズンの統計に基づいています。各チームの勝率調整は、最近Kaggle競争のために利用可能となった、2003年以降の試合データに基づいて構築された予測モデルに基づいています。
    • フリースロー成功 – チームのシーズンのより良いFT%に基づいて勝率を調整します。ブーストは、その唯一の入力として、FT%間の差を利用した分類モデルによって決定されます。
    • 3ポイント精度 – フリースロー補正と同様、この調整はその唯一の入力として「シーズンの3ポイント精度差」のモデルに基づいています。
    • リバウンド熟達度 – 組織化されたバスケットボールをプレーする場合、コーチはおそらくディフェンスの重要性について終わることなくレクチャーすることでしょう。巷のすべてのコーチに捧げるべく、この調整では1試合当たりのリバウンド数がより多いチームに少し報いるように (これもKaggleのデータに基づいて構築されたモデルに基づきます) その勝率を調整します。

ユーザーが各カテゴリに入力するウェートに基づいて、確率は試合ごとに調整され (トーナメントの予測不可能性をシミュレートするわずかのランダム性とともに)、また、試合は勝者が定められ、ブラケットが完成するまで、1試合ごとに「プレー」されます。

結果

このメソッドにおけるランダム性は、特に早期の試合で、無限数の独自ブラケットを作り出します。結果を要約すると、多くのブラケットを作成し、表にまとめる必要があります。ランダムな事象のシミュレーションが多数集計されると、長い目で見れば、大穴、ダークホース、シンデレラチームの「狂気」を取り除いた、確率が出現することに留意すべきです。これらの結果を評価する際に、100回闘ったらそのうちの99回はゴリアテがダビデに勝利することを憶えておいてください。しかし、1回しか戦わないとしても、そこには常にチャンスがあります。

以下の結果は、評判に基づくファンダメンタルズに従った次表のウェートに基づいて (あなたは独自のものを設定できます。さらに、1つのチームをファイナルフォーの一角に自動的に割り当てることもできます)、クリスタルBボールで作成した100万個のブラケットに基づいています。

パラメータ

次の表は、各チームがファイナルフォーに残ったシミュレーションの割合を示しています。

1 – 地域別ファイナルフォー確率

表1

カンザスはブラケットの34%で南部の代表としてファイナルフォーに残りました。第1シードが他を抑えたのはこの地域だけでした。中西部地域では第2シードのミシガン州立が圧倒的な比率でファイナルフォーに残る本命のようです (ブラケットの44%は、18%のバージニアと比較される)。また、ともに第2シードであるオクラホマとザビエルも、ファイナルフォーの参加チームに残る可能性がもっとも高くなりました。

同じような集計を利用して、100万個のブラケットのうち、もっとも頻繁にチャンピオンの座についたチームは、以下の表に示されています。

2 – 優勝確率

表2

この数字からは、ミシガン州立が今年の優勝チームになることが示唆されます。オクラホマとの潜在的な準決勝を勝ち残った場合に、ジェイホークスがミシガン州立に対する最大の挑戦者となるようです。

事象を予測することは結果に影響を与えないようですが、とりわけその特定の事象が統計用語で、ランダムパズルに覆われた推計学的な謎と考えられると、その事象をより楽しくします。言い換えれば、スパルタンズはヒューストンでネットをカットする前に、勝利を待つ必要があります。

これらの試合の幾つかは、ブザービーター、疑わしい審判、あるいは、かごに向かったボールがリングの縁を回り、外に落ちてしまうようなあのランダムなバウンドといったような問題になるかもしれない。それでも、そのような「100京に1つ」のショットを高い確度で説明するモデルを構築する必要があります。

著者情報

JimScott

ジョセフ・ブルー

(MapR Technologies データサイエンティスト)

「集計」から「機械学習」への入門

「集計」から「機械学習」への入門
最近「機械学習」という用語を聞く機会が増えたのではないでしょうか?

「ビッグデータ」「データサイエンティスト」ブームの後押しを受ける形で、データを活用した施策実施への一つの方法論として、機械学習が注目を集めています。機械学習は、従来の集計をベースにした分析とはどのように違うのでしょうか?

本稿では、機械学習の概要について説明することでその疑問にお応えするとともに、機械学習を実践するために必要となるソフトウェアについてもご紹介します。

無料ダウンロードはこちら

こちらの記事もおすすめです