← 返回每周 AI 新闻

Weekly Briefing

2025-12 第 2 周 —— 智能体联盟、“深度思考”对决,以及 NeurIPS 的千层神经网络

2025年12月13日

2025-12 第 2 周 —— 智能体联盟、“深度思考”对决,以及 NeurIPS 的千层神经网络

如果说 2025 年上半年是参数规模的竞赛,那么 12 月的第二周则标志着“权力的交接”——AI 从被动的聊天框转向了主动的 智能体 AI (Agentic AI) 时代。

在新奥尔良举行的 NeurIPS 2025 背景下,学术界在辩论强化学习 (RL) 的局限性,而工业界巨头——OpenAI、Google 和 Anthropic——则发布了一系列旨在重新定义生产力的更新。这不仅仅是又一次迭代,而是一次协调一致的行动,旨在监管机构或碎片化市场反应过来之前定义“智能体标准”。

本周的主题是:AI 不再只是模仿人类言语;它开始管理复杂的逻辑链和行业协议。


🔹 智能体联盟:AAIF 与“外交协议”

来源:OpenAI, Anthropic, Block 👉 官方公告:https://openai.com/blog/agentic-ai-foundation/

👉 协议标准:https://modelcontextprotocol.io/

  • AAIF 成立: 12 月 9 日,OpenAI、Anthropic、Block 和 AWS 宣布在 Linux 基金会下成立 智能体 AI 基金会 (AAIF)。此举标志着通过确保来自不同供应商的 AI 智能体能够无缝通信,从而终结“智能体孤岛”的尝试。
  • MCP 捐赠: Anthropic 将其 模型上下文协议 (Model Context Protocol, MCP) 捐赠给了该基金会,使其成为智能体连接各种数据源的全球标准。
  • 代码即指令: OpenAI 贡献了 AGENTS.md 规范,这是一个关于智能体如何阅读任务指令并通过标准化的 Markdown 文件调用外部 API 的框架。

硅谷实际上正在构建“智能体的 TCP/IP”,目标是实现一个你的 AI 会计可以自主与你的 AI 旅行助手进行谈判的世界。


🔹 巨头之战:GPT-5.2 vs. Gemini 3 Deep Think vs. Claude 4.5

来源:CNBC, Google Research, TechCrunch 👉 深度评论:https://www.wired.com/tag/artificial-intelligence/

  • GPT-5.2 “Professional”: OpenAI 在 12 月 11 日发布了 GPT-5.2,专门针对电子表格、复杂的演示文稿和海量代码库进行了优化。它声称每周可为专业知识工作者节省超过 10 小时的重复性劳动。
  • Gemini 3 Deep Think: Google 向 Ultra 用户推出了 Deep Think 模式作为反击。与标准模型不同,它模拟“系统 2 思维”,在回答前探索多条逻辑路径,在高级数学和科学推理方面取得了突破。
  • Claude 4.5 & Claude Code: Anthropic 更新了其产品线,推出了突破工程基准的 Claude 4.5。他们还推出了 Claude Code,这是一个 CLI 工具,允许开发者直接在 Slack 或终端中通过自然语言部署整个代码库。

战场已经转移到了 “审慎推理” 领域,获胜者不再是响应速度最快的,而是逻辑最深、错误率最低的。


🔹 NeurIPS 2025:从 1000 层到“协同科学家”

来源:NeurIPS Blog 👉 最佳论文摘要:https://blog.neurips.cc/2025/12/

  • 1000 层强化学习网络: 一位“最佳论文”获得者展示了一个具有 1024 层 的强化学习网络。在没有人类指导的情况下,该模型在机械臂精度方面实现了 50 倍的性能提升,证明了强化学习可以像语言模型一样通过扩展实现“涌现”。
  • AI 协同科学家: Google DeepMind 发布了 AI Co-scientist,这是一个旨在帮助研究人员生成新假设并编写实验代码的多智能体系统。AI 正在从“实验室助手”转变为“研究伙伴”。
  • 评估危机: 会议上的一个主要议题是现有的基准测试已经“失效”。由于模型在训练期间已经“见过”大多数测试题目,NeurIPS 呼吁建立一个基于 动态任务执行 的新系统。

🔹 每周快照:执行胜过对话

  • 基础设施 → AAIF 基金会将模型上下文协议 (MCP) 确立为智能体互操作性的标准。
  • 大脑 → GPT-5.2 瞄准专业生产力,而 Gemini 3 通过 “Deep Think” 挑战逻辑深度的极限。
  • 工作流 → Claude Code 闭合了 DevOps 的环路,将 AI 从“建议代码”推向“交付代码”。

🔹 给开发者的两个建议

  • 精通“多智能体编排”。 随着 MCP 协议的标准化,为单一模型开发正变得过时。学习使用 LangGraphOpenAI Agents SDK 等框架来编排专用模型(例如,使用 GPT-5.2 处理数据,Gemini 3 处理逻辑,Claude 4.5 进行执行)。
  • 关注强化学习 (RL) 的转向。 NeurIPS 上的 1000 层 RL 实验指向了机器人和边缘 AI 的巨大飞跃。如果你正在从事自动化工作(例如自动化潜水追踪硬件),请关注用于在小型专用芯片上进行本地部署的 自监督强化学习 (Self-Supervised RL)