这不仅是效率的提升,更代表了开发流程的结构性转变。其结果是,Anthropic的工程师现在每季度交付的代码量是2021年至2025年平均水平的八倍 。软件开发的瓶颈,正从编写和测试代码,转向更高层次的目标设定、架构设计和判断决策。
在预测递归式自我改善方面,最具冲击力的指标或许是AI自主任务时长的变化。METR的研究追踪了AI在50%成功率下能独立工作多长时间。这个任务时长范围已从2022年的约30秒,扩展到2026年4月Claude Opus 4.6的12小时,增长了1440倍 。Claude Mythos Preview可自主工作至少16小时,这已接近METR目前测量能力的上限
。这种能力范围的翻倍速率,已从每七个月一次加速到每四个月一次
。
除了代码和基准测试的量化数据,Anthropic还公布了对内部员工生产力的调查结果。通过对20万份内部Claude对话记录的分析和53次深度访谈,他们发现,27%的AI辅助任务,是员工在没有AI的情况下完全不会去尝试的工作,因为以往所需的时间成本让这些工作变得不切实际 。这并非简单地将现有工作自动化,而是拓展了人们敢于尝试的边界。在另一项2025年11月的内部研究中,员工表示他们在60%的工作中会使用Claude,并估计这带来了50%的生产力提升,而前一年这个数字是20%
。
Anthropic的立场很明确。该公司表示:“我们还没有达到那一步,递归式自我改善也并非不可避免。但它可能会比大多数社会机构准备应对的速度更快到来” 。公司甚至认为,全球具备暂停或延缓AI开发的能力“很可能是一件好事”,并直接敦促其他实验室考虑这一点
。
同一周,OpenAI的行动却描绘出截然不同的图景。6月3日,OpenAI发布了一份公共政策议程,呼吁建立联邦层面的前沿AI安全框架,包括强制性的模型评估和举报人保护条款,但其中有一项关键条款:联邦法律将优于各州层面的安全法规 。议程明确要求联邦AI安全研究所CAISI优先监控AI向递归式自我改善发展的进程
。与此同时,OpenAI正在为这个确切的风险招聘人员,在其安全团队内设立了一个名为“递归式自我改善准备”的研究员职位,薪酬高达29.5万至44.5万美元
。这份工作的本质是解决“失控遏制”难题,一个“有品味且具战略性”的努力,以应对那些“可能存在于未来,但目前或许还不存在”的风险
。
两家实验室都看到了同一个巨浪正在逼近,但Anthropic在呼吁整支船队减速,而OpenAI则正在高薪聘请救生员,并反对任何单一州政府发布“禁泳令”。
Anthropic联合创始人杰克·克拉克曾另行估计,这条“链”在2028年底前闭环的概率为60% 。而6月4日博文中公布的内部数据,则为这个看似遥远的假设提供了事实依据。它不再是凭空预测,而是基于一条已经清晰上扬的曲线所做出的推断。
Comments
0 comments