Googleが「Computer Use Preview」を公開 Geminiがブラウザ操作する時代へ

AIニュース3,アイキャッチ

Googleが公開した「computer-use-preview」は、Geminiモデルを用いてブラウザ上の操作を自動化する新しいオープンソースプロジェクトです。ユーザーが「Gmailを開いて新しいメールを作成して」と指示すると、AIがブラウザを制御し、クリックや入力を実行します。これまでの「テキストを生成するAI」から一歩進み、「実際に操作してタスクを完了させるAI」へと進化した点が注目されています。

使い方:PlaywrightやBrowserbaseで試せます

このプレビュー版は、開発者が簡単に試せるように設計されています。

  • ローカル環境:Playwrightを使用して、自分のPC上でブラウザ操作を実行します。
  • リモート環境:Browserbaseを介して、クラウド上で操作を行うことができます。

利用には、Gemini Developer APIまたはVertex AI経由でのアクセスが必要です。リポジトリはApache 2.0ライセンスのもとで公開されており、誰でもコードを参照・改良できます。

背景にある「エージェント化」トレンド

近年、OpenAIやAnthropicなども同様の「AIエージェント」機能を強化しており、Googleの動きはその流れの一環といえます。
この技術は、APIが提供されていないWebサービスでもAIが自動で操作できる点が革新的です。たとえば、

  • Web上でのリサーチやデータ入力の自動化
  • SaaSツールの設定やレポート作成
  • マーケティング業務の自動実行

など、実務での幅広い応用が期待されています。

まだ「プレビュー」段階、課題も多い

現時点ではあくまで実験的なプレビューであり、動作の安定性やセキュリティには注意が必要です。
画面構成の変更に弱く、誤操作のリスクもあります。さらに、機密情報を扱う画面での利用には慎重さが求められます。
それでも、自然言語で「パソコンを操作できるAI」は、業務効率化や自動化の概念を大きく変える可能性を秘めています。

まとめ

Googleの「Computer Use Preview」は、AIが「考える」だけでなく「実際に操作する」未来への第一歩といえます。
Geminiモデルの進化により、ブラウザ操作やタスク実行をAIが担う時代が現実味を帯びてきました。今後の正式版公開に向けて、開発者コミュニティからの注目がますます高まりそうです。

関連記事