Google は、Android アプリ開発における各 AI モデル(LLM)のコーディング能力を評価し、どのモデルが実際の開発に最も適しているかを示す新しいベンチマーク「Android Bench」を公開しました。
これにより、開発者は自身のコーディング作業をサポートする最適な AI ツールを客観的なデータに基づいて選択できるようになります。
なお、現時点のテスト結果では、Google の Gemini 3.1 Pro Preview がトップスコアを記録しています。
Android 開発特有の課題を評価
これまでにも AI を用いたソフトウェア開発における LLM の能力を測るベンチマークは存在していましたが、Android 開発者が直面する特有の課題を十分にカバーできていませんでした。そこで Google は、高品質な Android アプリ開発の指標となるよう、Android に特化した独自のベンチマークを作成しました。
このテストでは、Jetpack Compose による UI 構築をはじめ、Coroutines や Flows を使った非同期処理、Room でのデータ永続化、Hilt による依存性の注入など、実際の開発現場で必要となる具体的な対応能力が評価されます。
また、ナビゲーションの移行や Gradle のビルド構成、SDK アップデートに伴う破壊的変更への対応のほか、カメラ、システム UI、メディア、折りたたみ式デバイスへの最適化といった Android ならではの幅広い分野が測定対象となっています。
AI モデルのリーダーボードとスコア
Google は Android Bench に基づく AI モデルのリーダーボードも公開しており、現時点でどのモデルが Android アプリ開発に適しているかを確認できます。発表されたランキングとスコアは以下のとおりです。
- Gemini 3.1 Pro Preview: 72.4%
- Claude Opus 4.6: 66.6%
- GPT-5.2 Codex: 62.5%
- Claude Opus 4.5: 61.9%
- Gemini 3 Pro Preview: 60.4%
- Claude Sonnet 4.6: 58.4%
- Claude Sonnet 4.5: 54.2%
- Gemini 3 Flash Preview: 42.0%
- Gemini 2.5 Flash: 16.1%
Google が作成したベンチマークということもあり、自社の Gemini 3.1 Pro Preview が 72.4% でトップとなっています。
一方で、Anthropic の Claude Opus 4.6 や OpenAI の GPT-5.2 Codex も 60% 以上のスコアを記録しており、Android 開発において他社モデルも実用的な選択肢になり得ます。また、Gemini 2.5 Flash から最新モデルへのスコアの伸び幅から、各モデルのコーディング能力が継続的に向上していることが確認できます。
Google は、このようなランキングや数値を公開することで、AI モデルが Android 開発向けにより改善されることを促しています。これにより、開発者の生産性が高まり、Android エコシステム全体でより高品質なアプリが提供されるようになることを目標としています。


