Google、UI 操作を自動化する AI モデル「Gemini 2.5 Computer Use」をリリース

当サイトは Google Adsense、Amazon アソシエイト等 アフィリエイト広告を利用して収益を得ています.

Google DeepMind は、Google I/O 2025 で発表していた、ユーザーインターフェース (UI) を直接操作できる AI エージェントの開発を可能にする新モデル「Gemini 2.5 Computer Use」を正式リリースしました。

このモデルは Gemini 2.5 Pro の高度な視覚理解と推論能力を基盤としており、フォーム入力やページ操作などのタスクを自動化できます。開発者は Gemini API を通じて、Google AI Studio や Vertex AI から利用可能です。

これまで AI モデルがソフトウェアと連携する際は、主に構造化された API を介していました。しかし実際の作業では、フォームの入力や送信など、グラフィカルユーザーインターフェース (GUI) の直接操作が必要なケースが多くあります。

今回の Gemini 2.5 Computer Use は、人間のようにウェブページやアプリを操作できる能力を持ち、より汎用的な AI エージェントの構築を支援するものです。

目次

Gemini 2.5 Computer Use の仕組み

このモデルの主要な機能は、Gemini API に追加された新しい「computer_use」ツールを通じて提供され、ループ処理の中で動作します。

処理の流れは以下のとおりです。

  1. 入力 : ユーザーのリクエスト、現在の画面のスクリーンショット、直近のアクション履歴がモデルに渡されます。
  2. 分析と生成 : モデルがこれらの情報を分析し、クリック、入力、スクロールなどの UI アクションを表す関数呼び出しを生成します。購入など一部のアクションでは、ユーザー確認を求めるリクエストを含むことがあります。
  3. 実行 : クライアント側コードが、モデルから受け取ったアクションを実行します。
  4. フィードバック : 実行後、更新された画面のスクリーンショットと現在の URL がモデルに返され、ループが再開されます。

このプロセスは、タスクが完了するか、エラーが発生する、またはユーザーが終了を決定するまで繰り返されます。

Gemini 2.5 Computer Use モデルのフローを示す画像
Gemini 2.5 Computer Use モデルフロー

Gemini 2.5 Computer Use は主にウェブブラウザでの利用に最適化されていますが、モバイル UI の制御タスクでも高い性能を示しています。ただし、現時点ではデスクトップ OS レベルの制御には最適化されていません。

Google はデモも公開しており、例えば「カリフォルニア在住のペット情報を取得して CRM に登録・予約する」タスクや、「オンラインの付箋ボードを整理する」タスクを自動で実行する様子が紹介されています。

高精度・低レイテンシーのパフォーマンス

Gemini 2.5 Computer Use は、複数のウェブおよびモバイル制御ベンチマークで他モデルを上回る性能を記録しています。特に Browserbase のベンチマークテストでは、ブラウザ制御において高い精度を維持しつつ、遅延を最小限に抑える結果を示しました。

Google によると、このモデルはブラウザ操作の品質において先行モデルを大きく上回っており、UI 自動化タスクでも高い再現性を実現しています。社内テストでは、UI テストの失敗率を大幅に削減し、修正工数を短縮する効果も確認されています。

安全性への配慮と開発者向け制御機能

コンピュータを直接操作する AI エージェントは、悪用や予期しない挙動といったリスクを伴います。Google はこれに対応するため、モデル自体に安全機能を組み込み、開発者向けにも制御手段を提供しています。

主な安全機能は次のとおりです。

  • Per-step safety service : 各アクションが実行される前に安全性を評価する仕組み。
  • System instructions : 高リスク操作を拒否、またはユーザー確認を必須化する設定。

これにより、システムの整合性を損なう操作やセキュリティ侵害、医療機器などの制御を防止できます。

Google は、開発者に対しても安全テストとベストプラクティスの遵守を強く推奨しています。

早期テスターの事例

Gemini 2.5 Computer Use は、すでに Google 社内外で実運用が進んでいます。

Google の決済プラットフォームチームでは、このモデルを UI テスト自動化の補助機構として導入し、従来は数日かかっていた修正タスクの 60 % 以上を自動的に回復できるようになったと報告しています。

また、早期アクセスプログラム参加企業からも次のような評価が寄せられています。

  • Poke.com (AI アシスタント) : 「Gemini 2.5 Computer Use は競合モデルより 50 % 速く、処理精度にも優れています」
  • Autotab (AI エージェント) : 「複雑なケースの文脈解析で他モデルを凌駕し、難易度の高い評価で最大 18 % の性能向上を達成しました」

利用方法

Gemini 2.5 Computer Use は現在、パブリックプレビューとして提供されています。

開発者は次の方法で利用を開始できます。

  • 試用 : Browserbase 上で提供されるデモ環境でモデルを体験可能
  • 開発 : Google AI Studio または Vertex AI のドキュメントを参照し、独自のエージェントを構築
  • コミュニティ : Developer Forum でフィードバックを共有し、開発者同士で情報交換が可能

Google は今後、開発者の意見をもとに機能改善を進め、より高度なエージェント構築を支援するとしています。

まとめ

Gemini 2.5 Computer Use は、AI が人間のように UI を操作できる次世代エージェント技術の第一歩といえます。Google はこのモデルを通じて、ブラウザ操作やワークフロー自動化の分野で実用レベルの精度と安全性を実現しました。

今後、開発者による応用が広がることで、日常的な業務やテスト自動化など、より多様な分野への展開が期待されます。

出典: Google

この記事をシェア

著者情報

HelenTech の運営をしている 尾村 真英 です。これまでに 50台以上の Chromebook をレビュー しており、主に小規模事業者を対象に Chromebook や Google Workspace の導入・活用支援も行っています。
現在は、Chrome Enterprise 公式ユーザーコミュニティのモデレーターとしても活動中で、Professional ChromeOS Administrator 資格を保有しています。

HelenTech の最新情報を見逃さない

Google News をフォローすると、最新のニュースやレビューがあなたのフィードに直接届きます。

Google ニュース リンクバナー
目次