HadoopTimes

実践 機械学習:レコメンデーションにおけるイノベーション
技術情報

グリーン・ジャケットは誰の手に?データサイエンティストのアプローチを使ってマスターズ優勝者を選ぶ

Masters

春は、多くのスポーツファンが、NCAAバスケットボール選手権(このテーマの当社ブログ記事をご覧ください)優勝チームを1.5垓(150×10の18乗)通りもの組み合わせの中から予測しようと、トーナメント表に釘付けになる時です。春のスポーツカレンダーで私自身のハイライトは、毎年、ジョージア州オーガスタ・ナショナル・ゴルフクラブで開催されるマスターズ・ゴルフ・トーナメントです。プロゴルフのスケジュールには、マスターズ、全米オープン選手権、オープン選手権、PGA選手権の4大トーナメントが毎年開催されます。この選手権のうち、マスターズだけが毎年同じコースで開催されており、優勝者にはその象徴としてマスターズ優勝者グリーン・ジャケットが贈られます。

「勝利すること」とは?

ファンタジースポーツリーグに多数参加し、MapRではデータサイエンティストであることから、私は独創的な視点を持って、トーナメントで誰が最も「勝ち」そうなのか、をどのように分析するのかご案内します。まず、「勝利する」ことについて定義しましょう。一位になるゴルファーを正しく言い当ることは、まれで、予想は大変難しいものです。ファンタジーゴルフでは、約100名でスタートする参加者全員からあなたが選択した6名のゴルファーのシミュレーションを元に全体のポイントが与えられます。従って、あなたが取るべき戦略は、6名全員が予選を通過し、トップに近い順位で終了するよう本選でプレイすることを保証するところから始める必要があります。(6名全員がトップテン入りすることを求めます)予選落ちの可能性が最も高いプレイヤを見つけることから始めることで、問題を小さくすることができます。

ゴルフの統計パフォーマンスメトリックスは、基本のスコアをはじめ、数多くのメトリックスがあります。「あるラウンドで18ホール全てを回るのに何ストロークを要したか?」このPGAのキャリバープレイヤのスコア値は、毎週異なるコース、そして様々な条件下でプレイするので、60台前半から70台中番の間の範囲となります。他の選手たちと相対的に各プレイヤのパフォーマンスを理解するには、週毎のスコアを標準化する必要があります(ここでは、zスコア変換が上手く使えます)。スコア70なら、ある週は勝てるかもしれませんが、その翌週は予選落ちかもしれません。飛距離、フェアウエイキープ率、パット数、そして私がプレイヤのフォームを判定するために使用した30以上のメトリックスについても同じことが言えます。試合は進化していくことも伝えるべきでしょう。私は特にPGAツアーのパフォーマンスを定量化していますが、プレイヤの多くは同時にヨーロッパやアジアのツアーでもプレイしており、選択バイアスによってシステムに影響を与えています(それは不完全要素であり、認識しています。)

得手不得手

先ほど述べたように、マスターズ・トーナメントは毎年同じコースで継続して開催されています。そのことから幾つか不確定要素を式から消去します。私は、プレイヤをの長所を評価するモデルを構築しました。オーガスタの場合、その長所は、ドライブショット、アプローチショット全体で175から225ヤード、平均でパースコアは4です。オーガスタ・ナショナルのグリーンの速さは有名なので、首位の統計に平均パット数とパットまでのストローク数が含まれないのはちょっと驚きでしょう。週末ゴルファーは、大抵がグリーンのプレイだけでパー以上を叩くと言われています。

メソドロジー

個々のプレイヤデータ全ての収集、解析、正規化は、分析作業の入り口にすぎません。コンディションについて上手く定義できるでしょうか?予測に使われる特定の要素をどの程度の重み付けをするべきでしょうか?過去の優勝者はどうでしょうか?マスターズ・トーナメントをモデル化する目的で、今シーズンからのデータ全て(約14週分)を直近のパフォーマンスにやや重みを与えて利用すれば最適になることを発見しました。プロゴルフシーズンの後半の選手権での予測や、パフォーマンスの周期性や季節要因により分析結果は変わっていきます。

最初のステップでは、既に説明したように、参加選手全員にクラスタリングアルゴリズムを用い、本選をプレイすると予想される候補者の少数集団を作成します。複雑な条件を含んだ同一サイズのグループを構築する際に、K平均法が実にうまく作用しました。私のシミュレーションで、これがまさに求めていたことです。振り返ってみると、「予選通過しない」クラスターには、上位10位に食い込んだプレイヤはほとんどおらず、例外は、あるエリートプレイヤがトーナメント後半で悪天候による遅延で36ホールの連続プレイを余儀なくされたケースだけでした。

今では、特有なパフォーマンスメトリックスとそれが結果に与える影響についてモデリングできます。目標変数として終了順位を使用して、所有する全データについてランダムフォレスト モデルを構築するところから始めます。モデルを完成させたら、あるゴルファーによるラウンドのランダムなグループを選び、各ラウンドでの終了順位を予測します。実際には、各プレイヤに対して500程度のラウンドをシミュレーションし、終了順位の平均を求めます。 最後に、私が予想した予選通過する全プレイヤの予想終了順位でランキング一覧を作成します。

予想

読者のご要望に答えて、この統計モデルを使った予測を発表します。今年10位以内で(1位を希望しますが)終了する見込みが高いプレイヤ6名は以下の通りです。

私の予想:

  1. ジェイソン・デイ
  2. ダスティン・ジョンソン
  3. アダム・スコット
  4. バッバ・ワトソン
  5. リッキー・ファウラー
  6. シャール・シュワーツェル
VS GOLFCHANNEL.COMの予想:

  1. アダム・スコット
  2. リッキー・ファウラー
  3. ジェイソン・デイ
  4. ジャスティン・ローズ
  5. ジョーダン・スピース
  6. フィル・ミケルソン

何名かは、私の直感とマッチしますが、中には驚かされたものもあります。結局のところ、私の統計アプローチは、直感よりも常に30%から40%ほど優れており、2016年でも同様の結果であることを期待しています。

著者情報

Will Cairns

ウイル・ケアンズ

(MapR Technologies データサイエンティスト)

「いまさら聞けない」データ分析の総ざらい

「いまさら聞けない」データ分析の総ざらい
昨今、「データ分析」の重要性が強く叫ばれています。ただ、それはアナリストやデータ・サイエンティストと呼ばれる“専門家だけが担うことができる難解なもの”という誤解を持たれてはいないでしょうか。

データ分析という手法は、IT のパワーを活用することで、どんな企業も導入・実践することができる“現実解”なのです。

データ分析とはいかなるものなのか――。

この資料では、これからデータ分析を始める方や始めたが、もう一度初歩知識を復習したい方々向けにデータ分析の基本を解説します。

無料ダウンロードはこちら

こちらの記事もおすすめです