【戦略解説】AIが選ぶ5頭で三連複BOX — 過学習を排除した真の実力値

なぜ「5頭BOX」なのか

競馬予想AI「PerfectGreen」に、新しい馬券戦略を追加した。三連複5頭BOX（以下「5BOX」）。シンプルだが効果的だ。モデルが一度も見ていない2024年のデータ（932レース）で検証した結果、回収率127%・的中率18% を確認し、正式戦略として採用した。

1. 問題意識：1着当ては難しい

これまでのPerfectGreenは、LightGBMアンサンブルモデルで各馬の走力スコアを予測し、スコアが最も高い馬を1着候補として推奨していた。

テストの結果、1着的中率は32〜36% で、1番人気（JRA全体で約33%）とほぼ同等かやや上回る水準だ。悪くない。しかし、1着を当てることと馬券で利益を出すことは別問題だ。

1着予想が当たっても単勝・複勝の配当は低く、外れた時のロスが大きい。回収率100%を超すには、当てるだけでなく「当たった時の配当」も考えなければならない。

2. 発想の転換：3頭同時に当てる

ここで着眼したのが三連複だ。

三連複は「1着・2着・3着に入る馬を順不同で予想する」券種で、的中すると配当が大きい（JRA平均で約3,000〜5,000円）。難点は当然、3頭全てを当てる必要があることだ。

しかし、我々のモデルには「3着以内に入る確率」を高い精度で予測する専用のAIが既にある。各馬の確率を出力できるのだから、これを活かさない手はない。

BOX戦略のアイデア

モデルの上位N頭を選び、その中から3頭の全組み合わせを購入する「N頭BOX」戦略を考えた。

N頭BOX	購入口数	1口100円で
3BOX	1口	¥100
4BOX	4口	¥400
5BOX	10口	¥1,000
6BOX	20口	¥2,000

口数が増えるほど的中率は上がるが、投資額も増える。最適なNはどれか？

3. 検証方法

過学習への対策

機械学習の検証で最も注意すべきは過学習（オーバーフィッティング）だ。モデルが学習データを「暗記」してしまい、未見のデータでは性能が落ちる現象。

モデルの学習に使った期間（2025年4月〜2026年5月）のデータでテストすれば、数字は良く出る。しかしそれは「テストに使った問題が教科書と同じ」ようなものだ。

そこで、モデルが一度も見ていない2024年のデータをテストに使った。これが本当の実力値だ。

テスト期間

2024年4月, 8月, 12月（合計932レース） ※ モデルの学習期間は2025年4月以降。2024年は完全な未学習データ。

手順

各レースについて、モデルで出走馬のスコアを予測
スコア上位N頭を選び、全通りの三連複BOXを構成
実際のレース結果と照合し、的中判定
実際の三連複払戻金で回収率を計算

4. 結果

真の実力値（2024年・未学習データ）

戦略	投資額	的中	的中率	払戻額	回収率	損益
3BOX	¥64,600	27R	4.2%	¥176,510	273%	+¥111,910
4BOX	¥258,400	67R	10.4%	¥432,140	167%	+¥173,740
5BOX	¥646,000	118R	18.3%	¥817,970	127%	+¥171,970
6BOX	¥1,292,000	205R	31.7%	¥1,515,700	117%	+¥223,700

全戦略で回収率100%超（黒字）。未学習データでもAIの選別力は機能している。

なぜ5BOXを選んだか

指標	3BOX	4BOX	5BOX	6BOX
的中率	4.2%	10.4%	18.3%	31.7%
回収率	273%	167%	127%	117%
総損益	+112K	+174K	+172K	+224K
1Rあたり損益	+120円	+186円	+185円	+240円

判断基準：

3BOX: 回収率は最高だが的中率4%。約24レースに1回しか当たらない。精神的に厳しい
4BOX: 回収率167%と効率的。だが10回に1回のペースでは連敗が長引くことも
5BOX: 5回に1回は当たる ペースで回収率127%を維持。投資¥1,000に対し平均¥1,270戻る
6BOX: 的中率は最も高いが、1レース¥2,000の投資が必要。回収率は控えめ

5BOXは「5回に1回当たる」という実戦的な的中率を維持しつつ、回収率127%で確実に利益を出せる。このバランスを評価して採用した。

参考：学習期間内でのテスト（2025-26年）

学習に使った期間のデータでテストすると、数字は当然良くなる。

	的中率（未学習）	的中率（学習済）	上昇幅
5BOX	18.3%	32.2%	+13.9pt

学習データ内では的中率が32%と高く出るが、真の性能は18〜22%程度と考えるべきだ。それでも理論値5.5%の3〜4倍であり、AIの選別力は本物だ。

5. なぜ機能するのか

AIは人気と実力の「中間」を取る

モデルの特徴量重要度トップ2は人気とオッズだ。つまりモデルは市場の効率性を大幅に利用している。しかし、それだけではない：

lag1_speed（前走のスピード指数）
distance_aptitude（距離適性）
jockey_recent_winrate（騎手の最近の勝率）
top3_finish_rate（過去の連対率）

これらの「実力指標」も上位にあり、人気薄の実力馬を見抜く 能力がある。

5頭選びの妙

AI上位5頭には以下のような構成が含まれる：

1〜2頭の「人気どおり」の強い馬
2〜3頭の「実力はあるが人気になっていない」中穴馬

純粋に1〜3番人気をBOXしても配当が低い（平均1,000円前後）。しかしAIが「実力はある」と判定した中穴馬が混ざることで、的中時の配当が跳ね上がる。これが回収率100%超の秘密だ。

統計的な裏付け

JRAの三連複の理論的中確率（14頭立て）は約0.55%（1/182）。5BOX（10口）を買えば理論値は5.5%。未学習データでの的中率は18.3%。理論値の約3.3倍の的中率を達成している。

6. 注意点と限界

過去データに基づく検証であり、未来の利益を保証するものではない
未学習データ（2024年）でも黒字だが、回収率127%は決して高くない。月によっては赤字になる可能性がある
レースによってはAIの上位5頭が全滅することもある
モデルの性能はデータの鮮度に依存する。定期的な再学習が必要

まとめ

項目	数値（未学習データ）
テスト期間	2024年4月・8月・12月 / 932レース
的中率	18.3%（5回に1回）
回収率	127%（投資1円に対し1.27円回収）
総損益	+¥171,970

「AIに上位5頭を選ばせ、全通りBOXで買う」というシンプルな戦略が、モデルが見たことのないデータでも利益を生み出した。

派手な数字ではない。だが、過学習の罠を回避した上で黒字であること — それこそが信頼できる戦略の証だと考えている。

シンプルイズベスト — 複雑な馬券より、AIが信頼する5頭に絞って三連複BOX。これが今のPerfectGreenの答えだ。

PerfectGreen — LightGBM 5-fold ensemble + Top3分類器