Skip to content

Instantly share code, notes, and snippets.

@7shi
Created May 30, 2026 17:59
Show Gist options
  • Select an option

  • Save 7shi/0a16533c504cdde006998dd01a253c17 to your computer and use it in GitHub Desktop.

Select an option

Save 7shi/0a16533c504cdde006998dd01a253c17 to your computer and use it in GitHub Desktop.
[記事要約]Gemini 3.5 FlashでOSを作成

出典: Google Antigravity Built an OS (and more)

Google AntigravityがOSを構築——そしてそれ以上のこと

Google Antigravity 2.0のエージェントチームが、単一のプロンプトから機能的なOS(FreeDoomが動作可能)をゼロから構築した。93のサブエージェント、15,314回のモデル呼び出し、3億3900万以上の入力トークン(キャッシュ・出力・思考を含めると26億トークン以上)を消費し、API料金は約917ドル。Gemini 3.5 Flashの知能の高さを示す成果であり、経済的に現実的なエージェントチームの実用化が近いことを示唆している。なおGemini 3.1 Proではこのタスクは達成できなかった。

OSタスクだけでは「単なる再生産では?」という疑念に応えるため、AlphaZero論文の再現にも挑戦。エージェントチームはJAX/Flaxによる強化学習パイプラインを構築し、ResNetモデルをゼロから自己対戦で訓練、マルチTPUポッドにも対応するフルスタックアプリを完成させた。さらに写真編集スイート、リアルタイムメッセージングアプリ、マルチユーザーコラボレーションプラットフォームも同様に構築可能だった。既存の商用ソリューションほどの忠実度やセキュリティはないが、機能する出発点をわずかなコストで得られる点が画期的である。

エージェントチームの設計

単一のエージェントに複数の役割を担わせるのではなく、以下のように専門化されたサブエージェント型を定義した:

  • Sentinel: プロジェクトのフロントデスク。ユーザーの意図を構造化し、Orchestratorを起動し、全体の完了を監督。コードは書かない。
  • Orchestrator: ディスパッチ専任。要件をマイルストーンに分解し、専門サブエージェントを起動、レポートを統合。コードは書かない。
  • Explorer: 要件と過去のログを分析し戦略を策定。コードは書かない。
  • Worker: 実際にコードを実装しテストを実行。
  • Reviewer: Workerの変更を設計の正しさやインターフェース契約の観点からレビュー。
  • Critic: 敵対的テストで解の穴を発見。
  • Auditor: 独立した調査者として、生成された解の真正性と堅牢性を検証。LLMが難しいタスクでごまかす(テスト出力のハードコード等)のを防止する。

主要な工夫

  • 自己継承(Self-succession): コンテキスト長の限界に対応。Orchestratorが累積サブエージェント生成回数を追跡し、上限に達すると状態をハンドオフファイルにダンプし、後継サブエージェントを起動して継続。
  • Cronによるハング対策: 無限ループやブロックI/Oでスタックした場合、Scheduled Tasksプリミティブで進捗ファイルのタイムスタンプを監視、一定時間更新がなければSentinelが強制終了して再起動。
  • 盗作防止策: 過去の実行会話を参照して不正に素早く完了する「カンニング」を防ぐため、Auditorによる静的解析チェックとガードレールを実装。

/teamwork-preview

このオーケストレーションはAntigravity 2.0の既存のコアプリミティブ(並列サブエージェント、非同期タスク、フック)のみで構築されている。ユーザーはスラッシュコマンド /teamwork-preview として同一機能を利用可能。Google AI Ultra $200/月プランのユーザー向け研究プレビュー。Gemini 3.5 Flashの使用を推奨。クォータ不足で途中停止した場合は「Continue」と指示すれば再開可能。ローカルマシンで動作するため、実行中はマシンを起動し続ける必要がある。

展望

非同期エージェントチームは同期的ワークフローとは根本的に異なるUXを必要とする。コード検証が軽視されるリスクや、モデル高性能化に伴うオーケストレーションの再設計など課題は多い。しかし、困難だが明確に定義された作業を手頃なコストで非同期エージェントチームに委譲できるという点は、人類の複雑な課題に取り組むcollective ambitionを促進するだろう。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment