SWE-bench翻译站点

3个月前发布 61 0 0

SWE-bench是一个 AI 评估基准,用于评估AI大模型完成现实世界软件工程任务的能力。

所在地:
美国
语言:
en
收录时间:
2025-11-16
SWE-benchSWE-bench

SWE-bench 是评估大型语言模型(LLM)在软件工程环境中完成现实世界任务能力的核心 AI 评估基准。该基准包含 500 个独立任务,每个任务部署于专属 Docker 容器,均源自 GitHub 真实代码库问题;模型将配备智能体工具,需生成 “补丁” 解决对应问题,其解决方案的成功与否,由运行单元测试的结果直接判定。

 

SWE-Bench 排行榜

SWE-bench网站提供全球流行的大语言模型排行榜,排行榜的依据为GitHub问题的解决率。截止本文发布时间,目前排名第一的是字节跳动旗下的TRAE + Doubao-Seed-Code,解决了 500 个问题中的 78.80%。

SWE-bench

 

SWE-Bench 的由来

SWE-Bench 主要来自知名学术机构的研究人员合作开发,具体由 Carlos E. Jimenez 等人(含普林斯顿大学学者)与斯坦福大学 John Yang 共同提出,Alexander Wettig、Shunyu Yao、Kexin Pei、Ofir Press 及 Karthik Narasimhan 亦参与贡献。

 

相关导航

法新社

法新社

法新社 (AFP) 是西方四大通讯社中唯一的欧洲通讯社,前身可追溯至 1835 年创立的哈瓦斯社 (全球首家通讯社)。拥有 2,600 名来自 100 个国家的员工,覆盖 165 个国家和地区,以六种语言 (法语、英语、德语、西班牙语、葡萄牙语和阿拉伯语) 提供全媒体内容。作为全球首个事实核查网络创建者,其独立无股东的法律结构确保了报道的公正性,在国际冲突和政治报道领域具有显著影响力。