Gemini 2.5 Computer Use解説【Googleの新AIモデル】
Googleは、次期主力モデルであるGemini 3.0のローンチを控える中、「Gemini 2.5 Computer Use」モデルを発表しました。「Gemini 2.5 Computer Use」はAIエージェントがウェブインターフェースと直接対話できるモデルです。このモデルは、Gemini 2.5 Proの拡張版といえ、その優れた性能と多様な応用可能性が注目されています。
機能と性能
Googleは、このモデルが低レイテンシーで業界をリードするブラウザ制御を実現していると発表しています。主な性能は下記の通りです。ベンチマークで競合を凌駕しているといえます。
- Online-Mind2Web
公式リーダーボードで69.0%、Browserbase測定で65.7%を記録し、競合のClaude Sonnet 4.5 (55.0%) 、Claude Sonnet 4 (61.8%)、OpenAI Computer-Using Agent model (60.3%)を上回っています。 - Webvoyager
自己申告で88.9%、Browserbase測定で79.9%を達成し、OpenAI Computer-Using Agent model (80.0%)に匹敵する性能を示しています。 - AndroidWorld
Google DeepMind測定で69.7%を記録し、Claude Sonnet 4.5 (56.0%)、Claude Sonnet 4 (62.1%)を凌駕しています。

動作
- ユーザーからの初期タスクを受け取ります。
- ユーザーリクエスト、環境のスクリーンショット、過去のアクション履歴を分析し、次のUIアクションを決定します。
- 決定されたUIアクション(ボタンクリック、テキスト入力、要素ドラッグなど)を実行します。
- アクション実行後、更新されたスクリーンショットとURLを環境から受け取ります。
- 新しい環境の状態を分析し、ループを継続するか、タスクが完了するまで繰り返します。
継続的にループしますが、必要に応じてユーザー確認を求める機能も搭載しており、自律的かつ安全な操作を可能です。
活用例
- 顧客管理
新規顧客のデータ(名前、生年月日、電話番号、希望など)を自動で顧客情報を管理するシステム(CRMサイト)に登録できます。 - 暗号通貨の価格取得
BitcoinとEthereumの最新価格を検索し、Coinbaseから正確な情報を取得します。