なぜ「5頭BOX」なのか

競馬予想AI「PerfectGreen」に、新しい馬券戦略を追加した。三連複5頭BOX(以下「5BOX」)。シンプルだが効果的だ。モデルが一度も見ていない2024年のデータ(932レース)で検証した結果、回収率127%・的中率18% を確認し、正式戦略として採用した。


1. 問題意識:1着当ては難しい

これまでのPerfectGreenは、LightGBMアンサンブルモデルで各馬の走力スコアを予測し、スコアが最も高い馬を1着候補として推奨していた。

テストの結果、1着的中率は32〜36% で、1番人気(JRA全体で約33%)とほぼ同等かやや上回る水準だ。悪くない。しかし、1着を当てることと馬券で利益を出すことは別問題だ。

1着予想が当たっても単勝・複勝の配当は低く、外れた時のロスが大きい。回収率100%を超すには、当てるだけでなく「当たった時の配当」も考えなければならない。


2. 発想の転換:3頭同時に当てる

ここで着眼したのが三連複だ。

三連複は「1着・2着・3着に入る馬を順不同で予想する」券種で、的中すると配当が大きい(JRA平均で約3,000〜5,000円)。難点は当然、3頭全てを当てる必要があることだ。

しかし、我々のモデルには「3着以内に入る確率」を高い精度で予測する専用のAIが既にある。各馬の確率を出力できるのだから、これを活かさない手はない。

BOX戦略のアイデア

モデルの上位N頭を選び、その中から3頭の全組み合わせを購入する「N頭BOX」戦略を考えた。

N頭BOX購入口数1口100円で
3BOX1口¥100
4BOX4口¥400
5BOX10口¥1,000
6BOX20口¥2,000

口数が増えるほど的中率は上がるが、投資額も増える。最適なNはどれか?


3. 検証方法

過学習への対策

機械学習の検証で最も注意すべきは過学習(オーバーフィッティング)だ。モデルが学習データを「暗記」してしまい、未見のデータでは性能が落ちる現象。

モデルの学習に使った期間(2025年4月〜2026年5月)のデータでテストすれば、数字は良く出る。しかしそれは「テストに使った問題が教科書と同じ」ようなものだ。

そこで、モデルが一度も見ていない2024年のデータをテストに使った。これが本当の実力値だ。

テスト期間

2024年4月, 8月, 12月(合計932レース) ※ モデルの学習期間は2025年4月以降。2024年は完全な未学習データ。

手順

  1. 各レースについて、モデルで出走馬のスコアを予測
  2. スコア上位N頭を選び、全通りの三連複BOXを構成
  3. 実際のレース結果と照合し、的中判定
  4. 実際の三連複払戻金で回収率を計算

4. 結果

真の実力値(2024年・未学習データ)

戦略投資額的中的中率払戻額回収率損益
3BOX¥64,60027R4.2%¥176,510273%+¥111,910
4BOX¥258,40067R10.4%¥432,140167%+¥173,740
5BOX¥646,000118R18.3%¥817,970127%+¥171,970
6BOX¥1,292,000205R31.7%¥1,515,700117%+¥223,700

全戦略で回収率100%超(黒字)。未学習データでもAIの選別力は機能している。

なぜ5BOXを選んだか

指標3BOX4BOX5BOX6BOX
的中率4.2%10.4%18.3%31.7%
回収率273%167%127%117%
総損益+112K+174K+172K+224K
1Rあたり損益+120円+186円+185円+240円

判断基準:

  • 3BOX: 回収率は最高だが的中率4%。約24レースに1回しか当たらない。精神的に厳しい
  • 4BOX: 回収率167%と効率的。だが10回に1回のペースでは連敗が長引くことも
  • 5BOX: 5回に1回は当たる ペースで回収率127%を維持。投資¥1,000に対し平均¥1,270戻る
  • 6BOX: 的中率は最も高いが、1レース¥2,000の投資が必要。回収率は控えめ

5BOXは「5回に1回当たる」という実戦的な的中率を維持しつつ、回収率127%で確実に利益を出せる。このバランスを評価して採用した。

参考:学習期間内でのテスト(2025-26年)

学習に使った期間のデータでテストすると、数字は当然良くなる。

的中率(未学習)的中率(学習済)上昇幅
5BOX18.3%32.2%+13.9pt

学習データ内では的中率が32%と高く出るが、真の性能は18〜22%程度と考えるべきだ。それでも理論値5.5%の3〜4倍であり、AIの選別力は本物だ。


5. なぜ機能するのか

AIは人気と実力の「中間」を取る

モデルの特徴量重要度トップ2は人気オッズだ。つまりモデルは市場の効率性を大幅に利用している。しかし、それだけではない:

  • lag1_speed(前走のスピード指数)
  • distance_aptitude(距離適性)
  • jockey_recent_winrate(騎手の最近の勝率)
  • top3_finish_rate(過去の連対率)

これらの「実力指標」も上位にあり、人気薄の実力馬を見抜く 能力がある。

5頭選びの妙

AI上位5頭には以下のような構成が含まれる:

  • 1〜2頭の「人気どおり」の強い馬
  • 2〜3頭の「実力はあるが人気になっていない」中穴馬

純粋に1〜3番人気をBOXしても配当が低い(平均1,000円前後)。しかしAIが「実力はある」と判定した中穴馬が混ざることで、的中時の配当が跳ね上がる。これが回収率100%超の秘密だ。

統計的な裏付け

JRAの三連複の理論的中確率(14頭立て)は約0.55%(1/182)。5BOX(10口)を買えば理論値は5.5%。 未学習データでの的中率は18.3%。理論値の約3.3倍の的中率を達成している。


6. 注意点と限界

  • 過去データに基づく検証であり、未来の利益を保証するものではない
  • 未学習データ(2024年)でも黒字だが、回収率127%は決して高くない。月によっては赤字になる可能性がある
  • レースによってはAIの上位5頭が全滅することもある
  • モデルの性能はデータの鮮度に依存する。定期的な再学習が必要

まとめ

項目数値(未学習データ)
テスト期間2024年4月・8月・12月 / 932レース
的中率18.3%(5回に1回)
回収率127%(投資1円に対し1.27円回収)
総損益+¥171,970

「AIに上位5頭を選ばせ、全通りBOXで買う」というシンプルな戦略が、モデルが見たことのないデータでも利益を生み出した。

派手な数字ではない。だが、過学習の罠を回避した上で黒字であること — それこそが信頼できる戦略の証だと考えている。

シンプルイズベスト — 複雑な馬券より、AIが信頼する5頭に絞って三連複BOX。これが今のPerfectGreenの答えだ。


PerfectGreen — LightGBM 5-fold ensemble + Top3分類器