Google が Gemini 3.1 Flash-Lite のプレビューを公開。高速かつ低コストな開発者向けモデル

2026年3月4日

当サイトは Google Adsense、Amazon アソシエイト等アフィリエイト広告を利用して収益を得ています.

Google が Gemini 3.1 Flash-Lite のプレビューを公開。高速かつ低コストな開発者向けモデル

Google は 2026 年 3 月 3 日（現地時間）、Gemini 3 シリーズの中で最速かつ最もコスト効率に優れた AI モデル「Gemini 3.1 Flash-Lite」を発表し、プレビュー版の提供を開始しました。

現在、開発者は Google AI Studio の Gemini API を通じて、エンタープライズ企業は Vertex AI を経由して利用可能になっています。

コストパフォーマンスと処理速度

Gemini 3.1 Flash-Lite は、大規模なワークロードを処理する際のコスト効率とスピードが特長となっており、価格は入力 100 万トークンあたり 0.25 ドル、出力 100 万トークンあたり 1.50 ドルに設定され、上位モデルと比較して運用コストを抑えることができます。

また、処理速度は前世代の Gemini 2.5 Flash と比較すると、最初の回答が出力されるまでの時間（Time to First Answer Token）が 2.5 倍高速化し、全体的な出力スピードも 45% 向上しました。これだけの高速化を果たしながら、回答の品質は同等かそれ以上を維持しています。

高頻度で処理を行うワークロードや、リアルタイムの応答性が求められるアプリケーション開発において、実用的な選択肢になります。

各種ベンチマークテストにおいても、Arena.ai のリーダーボードで 1432 の Elo スコアを記録しています。さらに、推論やマルチモーダル理解においても同クラスのモデルを上回り、GPQA Diamond で 86.9%、MMMU Pro で 76.8% と、前世代の 2.5 Flash を上回るスコアとなっています。軽量化にとどまらず、ベースの精度も引き上げられています。

思考レベルによる柔軟なタスク制御

Gemini 3.1 Flash-Lite では、AI Studio および Vertex AI にて「思考レベル（thinking levels）」機能が標準で利用可能です。

これにより、モデルにタスクを処理させる際に「どれだけ深く推論させるか」を開発者側でコントロールできます。

大量の翻訳やコンテンツのモデレーションといったコストとスピード重視のタスクから、ユーザーインターフェースの生成や複雑な指示に従うような深い推論が必要なタスクまで、用途に応じて思考の深さを調整できるため、実際の運用においても柔軟に対応できます。

すでに早期アクセスを利用している企業からは、複雑な入力を上位モデル並みの精度で処理できる点や、指示に対する高い遵守性が評価されているとしています。

まとめ

今回の Gemini 3.1 Flash-Lite のプレビュー展開により、開発者は低コストかつ低遅延で、応答性の高い AI 機能をサービスに組み込めるようになりました。

処理速度と精度のバランスが優れているため、日々の開発ワークロードを効率化したい場合は、Google AI Studio などで実際に挙動を確認してみてください。

関連記事: Google が Gemini 3.1 Pro を発表、プレビュー版を展開開始。推論性能は 3 Pro の 2 倍以上

尾村真英

Technical Writer

HelenTech を運営している尾村真英です。これまでに 50 台以上の Chromebook をレビューしており、主に小規模事業者を対象に Chromebook や Google Workspace の導入・活用支援も行っています。
現在は、Chrome Enterprise 公式ユーザーコミュニティのモデレーターとしても活動し、Professional ChromeOS Administrator 資格を保有しています。

Google が Gemini 3.1 Flash-Lite のプレビューを公開。高速かつ低コストな開発者向けモデル

コストパフォーマンスと処理速度

思考レベルによる柔軟なタスク制御

まとめ

関連記事

HelenTech の最新情報をフォロー