ARC-AGI-3 基准正式发布,前沿模型得分不足 1%,重新定义 AGI 衡量标尺;LiteLLM PyPI 遭供应链攻击,AI 工具链安全问题敲响警钟;Jensen Huang 在 Lex Fridman 播客上公开宣称「AGI 已经到来」,引发广泛争议。
François Chollet 发布 ARC-AGI-3,号称「全球唯一未饱和的智能体智能基准」。该基准通过交互式推理环境评估智能体能力,人类得分 100%,而所有前沿 AI 模型在私有测试集上得分均低于 1%(Google Gemini 3.1 Pro 仅 0.37%)。
Chollet 指出,ARC-AGI-3 将成为 AGI 突破的「早期预警信号」——此前 ARC-AGI-1 的突然进步标志着 AI 推理的出现(2024 年 12 月),ARC-AGI-2 的跳跃则标志着智能体编程的兴起(2025 年末)。
LiteLLM 1.82.7 和 1.82.8 版本在 PyPI 上被植入恶意代码,攻击者通过入侵 CEO 的 GitHub 账号上传了含后门的版本。恶意载荷利用 .pth 文件漏洞在 Python 解释器启动时自动执行,试图窃取云凭据、SSH 密钥、Kubernetes 配置、CI/CD 密钥等敏感信息。
Karpathy 给出了最详细的技术分析,警告在智能体时代「整个文件系统都是攻击面」。该事件引发了对 AI 工具依赖链安全性的广泛讨论,社区呼吁锁定依赖版本、加强审计和收紧权限默认值。已确认 1.82.6 及更早版本不受影响。
NVIDIA CEO 黄仁勋在 Lex Fridman 播客中被问及 AGI 时间线时直言:「我认为现在就是,我认为我们已经实现了 AGI。」此言一出引发广泛争议。批评者指出 AGI 缺乏统一定义,且商业领袖对自家产品的表态需审慎看待。有趣的是,同一天 ARC-AGI-3 显示前沿模型得分不足 1%,形成鲜明对比。
Figma 发布 MCP 服务器并开放公测,AI 可直接在 Figma 画布上进行设计编辑。GitHub Copilot CLI 已支持通过 MCP 调用 Figma,Cursor 也迅速跟进,支持基于团队设计系统在 Figma 中生成组件和前端界面。这是工具调用从「聊天包装」走向「产品原生」的标志性案例。
据 WSJ 报道,扎克伯格正在打造个人「CEO Agent」,可跳过组织层级直接获取答案。Meta 员工已自发构建多种 AI 工具:
Meta 现已将 AI 使用情况纳入绩效考核,推动全公司 AI 化转型。
Claude Code 新增 Auto Dream 功能,模拟人类 REM 睡眠周期对项目记忆进行整合。该功能通过四个阶段运作:定向扫描→信号采集→整合合并→修剪索引,在 24 小时且 5 次会话后自动触发。仅修改记忆文件,不触碰项目代码,解决了 Auto Memory 功能带来的记忆膨胀问题。
微软将 Allen AI 研究所(AI2)多位核心人物纳入旗下,包括 Ali Farhadi、Hanna Hajishirzi、Ranjay Krishna 等,加入微软超级智能团队。此举引发学术界对开放研究机构能否与超级计算巨头争夺顶尖人才的担忧。