Gemini 3.5 FlashがPC操作対応

Gemini 3.5 FlashがPC操作対応

Googleは2026年6月24日、Gemini 3.5 Flash に「computer use」を統合したと発表しました。これはAIが画面を見ながら、クリック、入力、スクロールなどの操作を返せる機能です。

これまでGoogleのcomputer useは専用の「Gemini 2.5 Computer Use」モデルとして提供されていましたが、今回は主力のFlashモデルに組み込まれました。会話用モデルとPC操作用モデルが分かれていた状態から、1つの主力モデルでまとめて扱える形に進んだことが今回の一番大きな変化です。

【出典元】Introducing computer use in Gemini 3.5 Flash | Google

専用モデルから統合へ

今回のニュースが重要なのは、新機能が増えたというより、位置づけが変わったからです。Googleは2025年10月7日に「Gemini 2.5 Computer Use」を公開していましたが、これは名前の通り、PC操作に特化した専用モデルでした。ブラウザ上の操作に最適化されていた一方で、通常のGeminiとは少し離れた扱いでした。

それが今回は、Gemini 3.5 Flashの built-in tool になりました。つまり、Googleの主力軽量モデルであるFlashを使う開発者が、そのままcomputer useも呼び出せるようになったということです。機能が別枠から本流に入ったことで、AIエージェント開発のハードルはかなり下がったと見てよさそうです。

「PC操作ができる専用モデル」ではなく、「普段使うGemini 3.5 FlashでPC操作までできるようになった」という変化が本質です。

何ができるようになるのか

Googleの公式ドキュメントによると、Gemini 3.5 Flashのcomputer useは、画面のスクリーンショットを見て現在の状態を理解し、そこから次に取るべき操作を返します。実行自体は開発者側の環境が担いますが、モデルは「どこをクリックするか」「何を入力するか」を判断できます。

対応環境も広がっています。Googleはブラウザ、モバイル、デスクトップの3環境をサポート対象として案内しており、単なるWeb操作だけではなく、複数の画面をまたぐ自動化にも使いやすくなっています。

  • ブラウザ操作:フォーム入力やサイト巡回、Webアプリのテストです
  • モバイル操作:アプリ画面を見ながらの入力や確認です
  • デスクトップ操作:PC画面上での業務フロー自動化です

Googleは、継続的なソフトウェアテストや、複数の業務アプリをまたぐナレッジワークの自動化を主な活用例として挙げています。一般読者向けに言い換えると、AIがチャットで答えるだけでなく、実際に手を動かす段階に近づいたということです。

3.5 Flash版の強み

公式ドキュメントでは、Gemini 3.5 Flashがcomputer useの推奨モデルとされています。新しく加わった特徴として、各操作に `intent` が付き、「なぜその操作をするのか」を説明しながら動ける点が挙げられています。開発者から見ると、ただ座標を返すだけよりも、動きの理由が見えるほうが検証しやすいです。

また、以前の2.5系はレガシープレビューとして位置づけられ、現在は3.5 Flashが本命になっています。ここから見えるのは、Googleがcomputer useを実験機能ではなく、Geminiの標準機能として育てたいという姿勢です。

PC操作機能が主力モデルに統合されたことで、今後は「特別なAIエージェント」ではなく「Geminiの普通の使い方」の一部になっていく可能性があります。

安全面も強化されています

PC操作AIは便利な反面、誤クリックや危険な操作のリスクもあります。GoogleはGemini 3.5 Flash向けに、いくつかの安全機能を用意しています。まず、重要な操作にはユーザー確認を求める仕組みがあります。さらに、画面内に紛れた悪意ある指示を見つけるためのprompt injection detectionも用意されています。

たとえば支払い、アカウント作成、メール送信、重要データの変更のような操作は、自動実行を制限したり確認を挟んだりできます。Google自身も、安全機能だけに頼るのではなく、サンドボックス環境や人間の確認を組み合わせるべきだと案内しています。「AIが動けるようになった」だけでなく、「危ないときに止める仕組み」も一緒に整えている点は、実運用ではかなり大事です。

AI競争の見方も変わる

ここ最近のAI競争は、会話性能の比較だけではなくなっています。ClaudeやOpenAIもPC操作や業務自動化を強く打ち出しており、Googleも今回の統合でその流れに本格参加した形です。特にGemini 3.5 Flashのような主力モデルで使えるようになったことは、開発者や企業にとって導入しやすさに直結します。

今後の注目点は、単に「PC操作ができる」ことではなく、どこまで安定して長い業務フローを任せられるかです。AIが人の代わりに画面を触る時代は、もう珍しい実験ではなく、主要モデルの標準競争になり始めています。

まとめ

Gemini 3.5 Flashへのcomputer use統合は、GoogleがPC操作AIを本流に乗せたニュースです。これまで専用モデルだった機能が主力Flashモデルで使えるようになり、ブラウザ、モバイル、デスクトップをまたぐAIエージェント開発がしやすくなりました。

今回のポイントは、「GoogleにもPC操作AIがある」ではなく、「Gemini 3.5 FlashがPC操作までこなす主力モデルになった」ことです。今後は、会話性能だけでなく、実際の業務をどこまで任せられるかがGemini評価の軸になっていきそうです。

関連記事