← 毎週 AI ニュースに戻る

Weekly Briefing

2025-12 第2週 — エージェント同盟、「Deep Think」対決、そして NeurIPS の1000層ニューラルネットワーク

2025年12月13日

2025-12 第2週 — エージェント同盟、「Deep Think」対決、そして NeurIPS の1000層ニューラルネットワーク

2025年上半期がパラメータ数の競争だったとすれば、12月第2週は「権力の移譲」を象徴する週となりました。AIが受動的なチャットボックスから、能動的な Agentic AI(エージェント型AI) の時代へと移行した瞬間です。

アカデミアが強化学習(RL)の限界について議論を交わしたニューオーリンズの NeurIPS 2025 を背景に、OpenAI、Google、Anthropicといった業界の巨頭たちは、生産性を再定義するために設計された一連のアップデートを電撃発表しました。これは単なる反復ではなく、規制当局や断片化された市場が追いつく前に「エージェント標準」を定義しようとする、協調的な動きでした。

今週のテーマ:AIはもはや人間の言葉を模倣するだけでなく、複雑な論理チェーンや業界プロトコルを管理し始めている。


🔹 エージェント同盟:AAIF と「外交プロトコル」

出典: OpenAI, Anthropic, Block 👉 公式発表: https://openai.com/blog/agentic-ai-foundation/

👉 プロトコル標準: https://modelcontextprotocol.io/

  • AAIF の設立: 12月9日、OpenAI、Anthropic、Block、AWSは、Linux Foundationの下で Agentic AI Foundation (AAIF) の設立を発表しました。この動きは、異なるベンダーのAIエージェントがシームレスに通信できるようにすることで、「エージェントのサイロ化」を終わらせる試みを示しています。
  • MCP の寄贈: Anthropicは自社の Model Context Protocol (MCP) を同財団に寄贈し、エージェントが多様なデータソースに接続する方法のグローバル標準として確立しました。
  • 指示としてのコード: OpenAIは、エージェントがタスクの指示を読み取り、標準化されたMarkdownファイルを介して外部APIを呼び出すためのフレームワークである AGENTS.md 仕様を寄贈しました。

シリコンバレーは事実上「エージェントのTCP/IP」を構築しており、AIの会計士がAIの旅行アシスタントと自律的に交渉できる世界を目指しています。


🔹 巨頭の激突:GPT-5.2 vs. Gemini 3 Deep Think vs. Claude 4.5

出典: CNBC, Google Research, TechCrunch 👉 詳細レビュー: https://www.wired.com/tag/artificial-intelligence/

  • GPT-5.2 “Professional”: OpenAIは12月11日にGPT-5.2をリリース。スプレッドシート、複雑なプレゼンテーション、大規模なコードベースに特化して調整されており、専門職のナレッジワーカーの反復作業を週に10時間以上削減できると主張しています。
  • Gemini 3 Deep Think: Googleは対抗して、Ultraユーザー向けに Deep Think モードを展開。標準的なモデルとは異なり、回答前に複数の論理パスを探索する「システム2思考」をシミュレートし、高度な数学や科学的推論におけるブレークスルーを実現しました。
  • Claude 4.5 & Claude Code: Anthropicはラインナップを刷新し、エンジニアリングのベンチマークを塗り替えたClaude 4.5を発表。また、開発者がSlackやターミナル内で自然言語を使用してコードベース全体をデプロイできるCLIツール Claude Code もリリースしました。

戦いは 「熟慮された推論(Deliberate Reasoning)」 の領域へと移りました。勝者は最も回答が速いものではなく、最も論理が深く、エラー率が低いものになります。


🔹 NeurIPS 2025:1000層から「共同科学者」へ

出典: NeurIPS Blog 👉 ベストペーパー抄録: https://blog.neurips.cc/2025/12/

  • 1000層の強化学習ネットワーク: 「ベストペーパー」受賞者は、1024層 を持つ強化学習(RL)ネットワークを披露しました。人間の指導なしに、ロボットアームの精度で50倍のパフォーマンス向上を達成し、言語モデルと同様にスケーリングによってRLも「創発」し得ることを証明しました。
  • AI 共同科学者(Co-scientist): Google DeepMindは、研究者が斬新な仮説を生成し、実験コードを書くのを支援するために設計されたマルチエージェントシステム AI Co-scientist を発表しました。AIは「ラボアシスタント」から「研究パートナー」へとシフトしています。
  • 評価の危機: カンファレンスの主要なテーマは、既存のベンチマークが「機能していない」ということでした。モデルはトレーニング中にほとんどのテスト問題に「遭遇」してしまっているため、NeurIPSは 動的なタスク実行 に基づく新しいシステムを求めました。

🔹 今週のスナップショット:対話よりも実行

  • 配管(インフラ) → AAIF 財団が Model Context Protocol (MCP) をエージェントの相互運用性の標準として確立。
  • 頭脳 → GPT-5.2 は専門的な生産性をターゲットにし、Gemini 3 は「Deep Think」で論理的深さの限界を押し広げる。
  • ワークフロー → Claude Code は DevOps のループを閉じ、AIを「コードの提案」から「コードのデリバリー」へと進化させる。

🔹 開発者への2つのアドバイス

  • 「マルチエージェントのオーケストレーション」をマスターする。 MCPプロトコルの標準化により、単一のモデル向けに開発することは時代遅れになりつつあります。LangGraphOpenAI Agents SDK などのフレームワークを使用して、特化型モデル(例:データには GPT-5.2、論理には Gemini 3、実行には Claude 4.5)を調整する方法を学びましょう。
  • 強化学習(RL)へのピボットに注目する。 NeurIPSでの1000層RLの実験は、ロボット工学とエッジAIにおける巨大な飛躍を示唆しています。自動潜水追跡ハードウェアなどの自動化に取り組んでいる場合は、小型の特殊チップへのローカルデプロイに向けた 自己教師あり強化学習(Self-Supervised RL) に焦点を当ててください。