Gemma 4、商用利用を解放
Google DeepMindは2026年4月2日、オープンモデルシリーズの最新版「Gemma 4」を公開しました。Gemmaシリーズとして初めてApache 2.0ライセンスを採用し、これまで制限があった商用利用が完全に解放されました。
モデルは2.3Bから31Bまでの4種類で、画像・動画・音声を扱えるマルチモーダル機能を搭載。HuggingFaceやKaggleで即日ダウンロード可能となっています。
【出典元】Gemma 4 — Google DeepMind
初のApache 2.0で大きく転換
これまでのGemmaシリーズには独自の利用規約(Gemmaライセンス)が設けられており、商用展開を検討する企業はライセンス条件の確認や法的レビューが必要でした。このため、企業がGemmaをプロダクトに組み込む際に心理的・手続き的なハードルがありました。
今回のApache 2.0ライセンスへの移行はその障壁を取り除くものです。Apache 2.0はソフトウェア業界で広く使われている標準的なオープンソースライセンスで、商用利用・改変・再配布がすべて自由に行えます。企業が独自の特約やレビューを経ずに製品へ組み込める点が大きな変化です。
Google DeepMindはこのライセンス変更について「開発者が自信を持って、ゼロから自由に構築できるよう、権利と責任を明確にするためのもの」と説明しています。スタートアップから大企業まで、Gemma 4を製品の基盤として採用しやすくなりました。
4サイズで用途を幅広くカバー
Gemma 4は用途に合わせて選べる4種類のモデルサイズで提供されます。
- E2B(実効2.3B):コンテキスト長128k。スマートフォンやRaspberry Pi、IoTデバイスなどのエッジ端末向け。音声入力にもネイティブ対応
- E4B(実効4.5B):コンテキスト長128k。E2Bより高性能でエッジ・モバイル環境でも動作。音声対応あり
- 26B MoE(実効4B):コンテキスト長256k。Mixture-of-Experts(MoE)アーキテクチャにより、26Bの規模を持ちながら実際に動かすパラメータは4Bに抑えられ、推論コストを大幅に削減
- 31B Dense:コンテキスト長256k。全パラメータを活用するフルモデル。Arena AIのオープンモデルランキングで世界3位を記録
特にMoEアーキテクチャを採用した26Bモデルは、消費者向けGPUで動かせる「コストと性能のバランス型」として開発者から注目されています。
画像・動画・音声を一括で処理
Gemma 4は全モデルが画像と動画の入力に対応しており、テキストと組み合わせた複合的な処理が可能です。さらにE2BとE4Bの小型モデルには音声入力のネイティブサポートも搭載されており、音声認識・文字起こし・音声QAをモデル単体でこなせます。
対応できるタスクの具体例は以下の通りです。
- 画像やスクリーンショットからテキスト抽出(OCR)
- ドキュメントの内容理解と要約
- 画面上のUI要素の検出と操作
- 動画の内容分析と説明生成
- 音声の書き起こしと質疑応答
さらに140言語に対応しており、日本語を含む多言語環境での利用にも適しています。関数呼び出し(ファンクションコーリング)をネイティブでサポートしているため、外部ツールと連携するエージェントの構築にも使いやすい設計です。
数学・コーディングで高い性能
31Bモデルのベンチマーク結果は以下の通りです。
- AIME 2026(数学オリンピック型):89.2%
- GPQA Diamond(科学知識):84.3%
- MMLU Pro(多分野知識):85.2%
- LiveCodeBench v6(コーディング):80.0%
特に数学とコーディングの分野で高いスコアを示しており、推論を伴う専門的なタスクにも十分対応できる水準にあります。26B MoEモデルもAIME 2026で88.3%、LiveCodeBenchで77.1%を記録しており、31Bに迫る性能をより低いコストで実現しています。
モデルの動作環境は幅広く、PyTorch(transformers)・llama.cpp・MLX(Apple Silicon)・ONNX・WebGPUなど主要な推論フレームワークがリリース当日(Day-0)からサポートされています。ファインチューニングにも対応しており、TRL・Vertex AI・Unsloth Studioなどを使って独自データで追加学習させることも可能です。
まとめ
Gemma 4はApache 2.0ライセンスの採用によって、これまで以上に幅広い用途での活用が現実的になりました。商用展開を検討していた企業にとっては、ライセンスの壁がなくなった今が参入の好機といえます。
2.3Bから31Bまでの4サイズ構成でエッジデバイスから高性能サーバーまでカバーし、画像・動画・音声のマルチモーダルも備えた今回のリリースは、オープンモデル競争における重要な一手です。LlamaやQwenなどと並ぶ選択肢として、開発者コミュニティへの浸透が注目されます。