SWE-bench翻译站点

8个月前发布 236 0 0

SWE-bench是一个 AI 评估基准，用于评估AI大模型完成现实世界软件工程任务的能力。

所在地：

美国

语言：

收录时间：

2025-11-16

打开网站手机查看

AI信息源信息源 # ai # ai排行榜

SWE-bench

打开网站

SWE-bench 是评估大型语言模型（LLM）在软件工程环境中完成现实世界任务能力的核心 AI 评估基准。该基准包含 500 个独立任务，每个任务部署于专属 Docker 容器，均源自 GitHub 真实代码库问题；模型将配备智能体工具，需生成 “补丁” 解决对应问题，其解决方案的成功与否，由运行单元测试的结果直接判定。

SWE-Bench 排行榜

SWE-bench网站提供全球流行的大语言模型排行榜，排行榜的依据为GitHub问题的解决率。截止本文发布时间，目前排名第一的是字节跳动旗下的TRAE + Doubao-Seed-Code，解决了 500 个问题中的 78.80%。

SWE-Bench 的由来

SWE-Bench 主要来自知名学术机构的研究人员合作开发，具体由 Carlos E. Jimenez 等人（含普林斯顿大学学者）与斯坦福大学 John Yang 共同提出，Alexander Wettig、Shunyu Yao、Kexin Pei、Ofir Press 及 Karthik Narasimhan 亦参与贡献。

SWE-bench翻译站点

SWE-Bench 排行榜

SWE-Bench 的由来

相关导航

阿里云

豆包

路透社

合众国际社（UPI）

美联社

法新社

标签云