a8体育官方网站断崖式着落！最强AI也搞不定永恒开拓：代码堆得越多系统崩得越快

写一个函数，AI 险些无敌；但调理一个系统，为何 AI 启动崩溃？

面前，东谈主工智能也曾参加到“下半场”。跟着 AI 编程才调不断进步，OpenClaw 等居品缓缓兴起，“CLI everything”正在成为现实，即 AI 不需要操作电脑，而是将悉数的接口改为号令行界面（CLI），一个个手段正转酿成一个个软件功能。

当今，Agent 已不单是是履行单次任务的对话器用，而是正在向永恒运营、与真是天下交互、履行复杂任务的系统发展。可是，一个新的问题出现了：在握续演进的过程中，AI 能不断顺应新环境并保握开拓才调踏实吗？

腾讯“CEO/总裁办公室”首席 AI 科学家姚顺雨曾在一篇题为“The Second Half”的博客中提到，真是编程任务是连气儿依赖的，不是安定并行的，但当放学界莫得这么的基准来评估 AI 在该场景下所需要的才调，以至枯竭勇气摧折任务间互相安定的假定——长久以来被平凡接管，用于简化问题。

近期，好意思国南加州大学、加利福尼亚大学河边分校、斯坦福大学、普林斯顿大学、OpenHands 等聚合团队发布了一项全新评估基准 EvoClaw，为上述问题上建议了新决策。说合团队从开源技俩中提真金不怕火高质地代码演进历史，让 Agent 在合并代码库上连气儿完成数十个互相依赖的功能迭代。

收尾清晰，顶尖 AI 能在安定评估任务中发扬优异（得分 80%+），一朝参加长周期的真是场景，即就是轮廓得分最高的 Claude Opus 4.6 也只获取了 38.03% 的得分。这意味着，AI 关于履行解放度更高的任务容易偏离轨迹，其距离信得过卤莽处理长周期、连气儿的软件演进责任仍存在显耀差距。

这项说合揭示，AI 在永恒演进中极易堕入滚雪球式的时候债。尽管能握续添加新功能，却无法适度总结乌有累积，最终导致系统失控。这也意味着，AI 编程正从写代码向系统顾问转化。

联系论文以《EvoClaw：面向握续软件演进的 AI 智能体评估基准》（EvoClaw: Evaluating AI Agents on Continuous Software Evolution）为题，近期发表在预印本网站 arXiv[1]。

现存 AI 编程评测与真是体验错位，问题出在那处？

为何安定测评获取高分的顶尖模子，在 EvoClaw 测评中集体失利？问题的根源在于评测范式变了。

在以往说合中，主流编程测评基准（benchmark）多数聚焦于安定任务：给定一个议题（issue）或拉取恳求（PR，Pull Request），模子在静态的代码快照上完成建造，考证通过即完成测评。

但以往基准测评收获与现实开拓才调之间，存在着沿途欺压淡薄的范围：静态环境是一种相对理念念的气象，而真是环境则是更为复杂和动态的。跟着时间的演进，即就是数月前的狭窄 bug，经过版块迭代后也可能像滚雪球那样越来越大，进而导致系统崩溃。

该论文第一作家、南加州大学博士生邓港大对 DeepTech 暗意：“现存的 commit 以及 release 粒度，要么过于琐碎要么过于鄙俗。因此，这些开拓历史并不成体现软件演进的过程。”

说合团队初度将时间维度引入 AI 编程才调的评估体系，收受了一种全新层级——里程碑（Milestone），对软件演进的历史进行重构，卤莽兼具语义齐全性和演进依赖关系保留才调的功能单位。其条款 AI 在合并代码库上循序完成多个功能单位，这么不仅保留了每一步产出还成为下一步的起先。

为了复古从多数开源代码库中提真金不怕火出高质地软件演进历史，说合东谈主员基于顶尖 AI 巨大的才调，建议了一套 Agent 驱动的自动化活水线 DeepCommit，初度达成将嘈杂的 Git 开拓记载重构为可考证、功能内聚的里程碑任务依赖图（Milestone DAG），并为每一个里程碑构造出评估环境。主要包括三个阶段：Git 历史预处理、Agent 驱动的 DAG 构建以及里程碑环境建立与考证。

推行上，用 Milestone 对 Agent 历史演进进行重构并非易事，因为它不单是要构造一个静态的、可隧谈被不雅测的 DAG，而是要一连串不错被履行的评估环境，还要在演进依赖变更的同期保证正确性。

这意味着，当打乱 commit 的合座限定并把它再行聚类相连时，可能会面对 commit 无法愚弄、接口对不皆以及编译大面积报错的情况。针对该问题，说合东谈主员贪图了一套迭代式建造轮回：Agent 主动分析报错日记、动态修改 Dockerfile 确保可履行。

更关键的是，它会基于原有 DAG 补充被遗漏的隐式依赖，通过调理 Milestone 的先后拘谨关系让接口冲突问题得以妥善解决。经过反复迭代，最终达成正确网罗 87.1% 的原有测试用例。

“与单个编程任务场景比拟，踏实、可靠、灵验的长周期自主编程是更前沿的说合热门，举例 Anthropic、OpenAI 就明确标明他们也曾将要点滚动到考试模子的长周期编程才调。”邓港大暗意。

说合东谈主员将 DeepCommit 自动生成的演进图与东谈主类大众的手动标注进行对比，让他们感到未必的是，二者收受了不同的组织逻辑且互为补充。

具体而言，东谈主类大众的 Milestone 频频在局部时间窗口内，先定议题再归拢提交，是一种从上至下的语义切分；DeepCommit 为保证据足准确性，从提交之间的依赖关系开赴，从下到上地重建软件演进条理，更强调拓扑结构与履行拘谨。

对评测而言，这刚巧诠释 DeepCommit 关键在于从代码开拓历史中提真金不怕火出一套可履行、可考证的里程碑结构。从收尾来看，DeepCommit 能筛选出高质地、安妥评估的 Milestone 任务，何况在真是环境中可履行、可考证，为评测可靠性提供了保险。

一参加真是开拓，模子收获为何集体“腰斩”？

EvoClaw 障翳五种主流说话，包括 Python、Java、Go、Rust 和 TypeScript，登科的技俩横跨最长真是开拓周期达 750 天。

在评测办法方面，a8体育app最新版说合团队未聘请浅薄的通过率，而是引入了两个更中枢的维度——调回率（Recall）与精准率（Precision）的 F1 加权四肢每个 Milestone 的评分。其中，调回率用于意想功能达成完备性，而精准率则捕捉模子在新增功能时龙套既有代码的进程。

说合团队对 Claude Code、OpenHands 等多种框架和模子组合进行测试。收尾清晰，在安定评测中得分遍及在 80%-90% 的顶尖模子，在进行 EvoClaw 基准测试后集体断崖式下降，其中最高得分的 Claude Opus 4.6 仅获取 38.03% 得分。

GPT 5.3 Codex 以 28.88% 的轮廓得分仅次于 Opus4.6，位居第二。分仓库来看，GPT 5.3 Codex 在两个 Rust 技俩（Nushell、ripgrep）上发扬较弱，在其余仓库上则能接近以至最初 Opus4.6。在齐全解决率方面，得分最高的 Gemini 3 Pro 也惟有 13.37%，何况绝大部分能正确达成的都是莫得前置依赖的任务。

据了解，说合东谈主员将合座支出适度在合理范围内，以 Claude Opus 4.5 为例，齐全测评一次的资本约为 500 好意思元，Kimi K2.5 以及 Gemini 3 Flash 则在 50 好意思元以内，小模子的支出会更低。

那么，如若给模子更长的开拓窗口，它最终能 100% 把技俩处罚吗？

说合给出了含糊谜底：不管开拓窗口多长，悉数模子的发扬最终都会撞上“天花板”。任务履行限定越靠后、所处 DAG 层级越深，分数息争决率就越低。填塞函数外推收尾解说，即就是最优的 Opus 4.6，累计分数也会被卡死在 45% 足下的渐近线上。

“尽管 Opus 4.6 在 Anthropic 官网中提到比 4.5 在长周期的任务中发扬更好，但是并莫得给出细心的评估办法，EvoClaw 算是从另一个角度考证了他们的说法。”邓港大暗意。

此外，从实验中还看到了不同模子家眷之间存在显耀相反。具体而言，Claude 与 GPT 在握续演化场景中的发扬，会跟着版块更新稳步进步。其中，Opus 4.6 在长周期的编程上解说了其对系统的调感性能最好；GPT 5.3 由于在 Rust 数据集上发扬欠安而拉低了分数，排行在第二位。

比较出乎意想的是，Gemini 家眷呈现出完全不同的趋势：从 3 Flash 到 3 Pro 再到 3.1 Pro，每一代都在早期启动更快、前期发扬更好，但其长程发扬险些莫得显耀进步。邓港大解释谈：“Gemini 长周期运行发扬的昭彰衰败，意味着其不仅教唆罢职变差，越来越淡薄软件规格诠释（SRS）的需求，同期对所构造的软件系统枯竭调理。”

当说合东谈主员把合座分数进一步阐明为调回率与精准率时，一个更极端义的步地出现了：调回率险些呈不断飞腾趋势，接近线性增长。这意味着，哪怕代码库变得越来越叨唠、越来越脆弱，Agent 依然擅长达成刻下给定的新方向功能。

信得过的瓶颈在于精准率：Agent 难以调理现存系统，总结乌有积蓄的速率最初了它们建造这些问题的才调，而这恰是永恒开拓最终停滞的压根原因。