Google は 2026 年 6 月 9 日(現地時間)、Android アプリ開発向けの公式 AI コーディングベンチマーク「Android Bench」を更新し、Gemini 3.5 Flash を含む最新の結果を公開しました。
今回の更新では、Gemini 3.5 Flash はランキング 6 位にとどまった一方、トークン消費量とコストは上位モデルを大きく上回る結果となっています。
Android Bench とは
Android Bench は、Android アプリ開発に特化した AI モデルの性能評価ベンチマークです。
Android 開発特有の課題は既存のベンチマークでは十分に評価されないという認識のもと、Google が開発したもので、各モデルが 100 種類のコーディングタスクを 10 回実行し、成功したタスクの割合をスコア(%)として算出します。
あわせて、1 回のベンチマーク実行あたりの平均レイテンシ(時間)、平均トークン消費量(M)、平均コスト(USD)も公表されており、性能とコスト効率の両面から各モデルを比較できます。
Gemini 3.5 Flash の結果
今回の更新で新たに追加された Gemini 3.5 Flash のスコアは 63.7% で、全体の 6 位でした。
トークン消費量は 355.9M で、2 位の GPT 5.5(64.7M)の約 5.5 倍、3 位の Gemini 3.1 Pro Preview(73.3M)の約 4.9 倍となっています。平均コストは 147.1 ドルで、Gemini 3.1 Pro Preview(47.9 ドル)の約 3 倍にあたり、ランキング内で最も高い水準です。
スコアも、3 位の Gemini 3.1 Pro Preview(72.4%)との差は 8.7 ポイントあります。
上位 10 モデルの比較
以下は今回の Android Bench で公開された上位 10 モデルの結果です。
| モデル | スコア (%) | 平均レイテンシ (h) | 平均トークン数 (M) | 平均コスト |
|---|---|---|---|---|
| GPT 5.5 | 74.0 | 15.7 | 64.7 | 134.2 ドル |
| GPT 5.4 | 72.4 | 21.2 | 64.2 | 91.7 ドル |
| Gemini 3.1 Pro Preview | 72.4 | 11.1 | 73.3 | 47.9 ドル |
| Claude Opus 4.7 | 68.7 | 11.6 | 90.0 | 124.3 ドル |
| Claude Opus 4.6 | 66.6 | 9.9 | 69.5 | 84.4 ドル |
| Gemini 3.5 Flash | 63.7 | 14.2 | 355.9 | 147.1 ドル |
| GLM 5.1 | 59.7 | 33.4 | 80.2 | 46.7 ドル |
| Kimi K2.6 | 58.6 | 29.9 | 94.3 | 42.5 ドル |
| Claude Sonnet 4.6 | 58.4 | 8.2 | 47.9 | 40.4 ドル |
| DeepSeek V4 Pro | 55.4 | 35.8 | 132.7 | 13.7 ドル |
コスト効率という点では、DeepSeek V4 Pro が平均 13.7 ドルで最も低く、Claude Sonnet 4.6 も 40.4 ドルと抑えられているのに対し、Gemini 3.5 Flash の 147.1 ドルは同ランク帯のモデルと比べて高い設定になっています。
このことから、現状の Android 開発においては、Gemini 3.5 Flash はコストを抑えながら高スコアを狙う選択肢にはなりにくく、Gemini 3.1 Pro Preview のような上位モデルのほうがコスト効率の面で現実的といえます。








