なぜ「5頭BOX」なのか
競馬予想AI「PerfectGreen」に、新しい馬券戦略を追加した。三連複5頭BOX(以下「5BOX」)。シンプルだが効果的だ。モデルが一度も見ていない2024年のデータ(932レース)で検証した結果、回収率127%・的中率18% を確認し、正式戦略として採用した。
1. 問題意識:1着当ては難しい
これまでのPerfectGreenは、LightGBMアンサンブルモデルで各馬の走力スコアを予測し、スコアが最も高い馬を1着候補として推奨していた。
テストの結果、1着的中率は32〜36% で、1番人気(JRA全体で約33%)とほぼ同等かやや上回る水準だ。悪くない。しかし、1着を当てることと馬券で利益を出すことは別問題だ。
1着予想が当たっても単勝・複勝の配当は低く、外れた時のロスが大きい。回収率100%を超すには、当てるだけでなく「当たった時の配当」も考えなければならない。
2. 発想の転換:3頭同時に当てる
ここで着眼したのが三連複だ。
三連複は「1着・2着・3着に入る馬を順不同で予想する」券種で、的中すると配当が大きい(JRA平均で約3,000〜5,000円)。難点は当然、3頭全てを当てる必要があることだ。
しかし、我々のモデルには「3着以内に入る確率」を高い精度で予測する専用のAIが既にある。各馬の確率を出力できるのだから、これを活かさない手はない。
BOX戦略のアイデア
モデルの上位N頭を選び、その中から3頭の全組み合わせを購入する「N頭BOX」戦略を考えた。
| N頭BOX | 購入口数 | 1口100円で |
|---|---|---|
| 3BOX | 1口 | ¥100 |
| 4BOX | 4口 | ¥400 |
| 5BOX | 10口 | ¥1,000 |
| 6BOX | 20口 | ¥2,000 |
口数が増えるほど的中率は上がるが、投資額も増える。最適なNはどれか?
3. 検証方法
過学習への対策
機械学習の検証で最も注意すべきは過学習(オーバーフィッティング)だ。モデルが学習データを「暗記」してしまい、未見のデータでは性能が落ちる現象。
モデルの学習に使った期間(2025年4月〜2026年5月)のデータでテストすれば、数字は良く出る。しかしそれは「テストに使った問題が教科書と同じ」ようなものだ。
そこで、モデルが一度も見ていない2024年のデータをテストに使った。これが本当の実力値だ。
テスト期間
2024年4月, 8月, 12月(合計932レース) ※ モデルの学習期間は2025年4月以降。2024年は完全な未学習データ。
手順
- 各レースについて、モデルで出走馬のスコアを予測
- スコア上位N頭を選び、全通りの三連複BOXを構成
- 実際のレース結果と照合し、的中判定
- 実際の三連複払戻金で回収率を計算
4. 結果
真の実力値(2024年・未学習データ)
| 戦略 | 投資額 | 的中 | 的中率 | 払戻額 | 回収率 | 損益 |
|---|---|---|---|---|---|---|
| 3BOX | ¥64,600 | 27R | 4.2% | ¥176,510 | 273% | +¥111,910 |
| 4BOX | ¥258,400 | 67R | 10.4% | ¥432,140 | 167% | +¥173,740 |
| 5BOX | ¥646,000 | 118R | 18.3% | ¥817,970 | 127% | +¥171,970 |
| 6BOX | ¥1,292,000 | 205R | 31.7% | ¥1,515,700 | 117% | +¥223,700 |
全戦略で回収率100%超(黒字)。未学習データでもAIの選別力は機能している。
なぜ5BOXを選んだか
| 指標 | 3BOX | 4BOX | 5BOX | 6BOX |
|---|---|---|---|---|
| 的中率 | 4.2% | 10.4% | 18.3% | 31.7% |
| 回収率 | 273% | 167% | 127% | 117% |
| 総損益 | +112K | +174K | +172K | +224K |
| 1Rあたり損益 | +120円 | +186円 | +185円 | +240円 |
判断基準:
- 3BOX: 回収率は最高だが的中率4%。約24レースに1回しか当たらない。精神的に厳しい
- 4BOX: 回収率167%と効率的。だが10回に1回のペースでは連敗が長引くことも
- 5BOX: 5回に1回は当たる ペースで回収率127%を維持。投資¥1,000に対し平均¥1,270戻る
- 6BOX: 的中率は最も高いが、1レース¥2,000の投資が必要。回収率は控えめ
5BOXは「5回に1回当たる」という実戦的な的中率を維持しつつ、回収率127%で確実に利益を出せる。このバランスを評価して採用した。
参考:学習期間内でのテスト(2025-26年)
学習に使った期間のデータでテストすると、数字は当然良くなる。
| 的中率(未学習) | 的中率(学習済) | 上昇幅 | |
|---|---|---|---|
| 5BOX | 18.3% | 32.2% | +13.9pt |
学習データ内では的中率が32%と高く出るが、真の性能は18〜22%程度と考えるべきだ。それでも理論値5.5%の3〜4倍であり、AIの選別力は本物だ。
5. なぜ機能するのか
AIは人気と実力の「中間」を取る
モデルの特徴量重要度トップ2は人気とオッズだ。つまりモデルは市場の効率性を大幅に利用している。しかし、それだけではない:
- lag1_speed(前走のスピード指数)
- distance_aptitude(距離適性)
- jockey_recent_winrate(騎手の最近の勝率)
- top3_finish_rate(過去の連対率)
これらの「実力指標」も上位にあり、人気薄の実力馬を見抜く 能力がある。
5頭選びの妙
AI上位5頭には以下のような構成が含まれる:
- 1〜2頭の「人気どおり」の強い馬
- 2〜3頭の「実力はあるが人気になっていない」中穴馬
純粋に1〜3番人気をBOXしても配当が低い(平均1,000円前後)。しかしAIが「実力はある」と判定した中穴馬が混ざることで、的中時の配当が跳ね上がる。これが回収率100%超の秘密だ。
統計的な裏付け
JRAの三連複の理論的中確率(14頭立て)は約0.55%(1/182)。5BOX(10口)を買えば理論値は5.5%。 未学習データでの的中率は18.3%。理論値の約3.3倍の的中率を達成している。
6. 注意点と限界
- 過去データに基づく検証であり、未来の利益を保証するものではない
- 未学習データ(2024年)でも黒字だが、回収率127%は決して高くない。月によっては赤字になる可能性がある
- レースによってはAIの上位5頭が全滅することもある
- モデルの性能はデータの鮮度に依存する。定期的な再学習が必要
まとめ
| 項目 | 数値(未学習データ) |
|---|---|
| テスト期間 | 2024年4月・8月・12月 / 932レース |
| 的中率 | 18.3%(5回に1回) |
| 回収率 | 127%(投資1円に対し1.27円回収) |
| 総損益 | +¥171,970 |
「AIに上位5頭を選ばせ、全通りBOXで買う」というシンプルな戦略が、モデルが見たことのないデータでも利益を生み出した。
派手な数字ではない。だが、過学習の罠を回避した上で黒字であること — それこそが信頼できる戦略の証だと考えている。
シンプルイズベスト — 複雑な馬券より、AIが信頼する5頭に絞って三連複BOX。これが今のPerfectGreenの答えだ。
PerfectGreen — LightGBM 5-fold ensemble + Top3分類器