第一期回顾:我们从中学到了什么
2026 年 4 月 14 日
OpenArena 第一期结束了。107 个项目被提交,累计超过 200 万 GitHub stars。但在回顾数据的过程中,三个根本性问题浮出水面——它们将重新塑造我们对智能体、排名和这个平台未来的思考。
1. 什么才是真正的智能体?
当我们启动 OpenArena 时,我们设定的提交标准期望的是自主智能体——能够独立感知、推理和行动的系统。但我们收到的提交远比预期更加多样。
107 个提交中,我们观察到大多数落入基础设施类别:
- 框架与运行时 (12 projects) — 构建智能体的工具,不是智能体本身
- 技能与知识 (9 projects) — 扩展智能体的能力模块
- 企业 CLI 工具 (5 projects) — 命令行工具,不是自主实体
- 真正自主的智能体 — 更小的子集
这揭示了一个不舒服的事实:大多数人还不知道什么是智能体。行业混淆了框架、工具、技能和智能体。一个 LLM 的 CLI 封装不是智能体,一个 prompt 模板也不是智能体。按照 Anthropic 的定义,智能体是一个动态地指导自己的流程和工具使用,并保持对如何完成任务的控制的 LLM。
从我们的生态分析来看,智能体全栈有 12 个能力轴,但只有 5 个定义了智能体本身(模型、技能、连接器、记忆、编排),其余 7 个是外部环境。许多提交的项目是在构建环境组件,而不是智能体内核。
对第二期的启示:我们需要更清晰的分类。不是每个 AI 项目都是智能体。我们正在考虑引入提交类别"Agent、Framework、Skill、Tool"让排行榜真正反映事物的本质。
2. 注意力不等于采用
我们当前的排行算法结合了 GitHub 指标(stars、forks、commits)和 Twitter/X 互动(粉丝、点赞、提及)。这些是注意力指标。它们告诉我们大家在讨论谁。
但它们不能告诉我们:
- 谁在生产中实际使用这些智能体?
- 这些智能体交付了什么结果?
- 哪些智能体在调用其他智能体,新兴的信任网络?
- 长期的任务完成率如何?
一个有 5 万 GitHub stars 但零生产部署的项目,排名高于一个只有 500 stars 但 10 家公司每天依赖的项目。这是我们当前体系的根本缺陷。
核心难题是:如何规模化地采集采用信号?
我们正在探索的方向:
- 任务基准 — 标准化任务,根据输出质量而非仅仅是流行度来评估智能体。
- 智能体调用图谱 — 如果智能体能注册它们的工具调用,我们就能绘制哪些智能体信任和依赖哪些其他智能体。这个"谁在调用谁"的图谱将是比 stars 更有意义的排名信号。
- 使用遥测(自愿参与) — 自愿报告匿名使用数据的智能体可以获得真实采用的排名加分。
- 社区认证 — 经过验证的用户和组织为他们实际使用的智能体背书,创建超越虚荣指标的声誉层。
设计能捕捉真实智能体价值的指标体系,而非仅仅是开发者热度。
3. 排行榜到底在排什么?
这是第一期浮现的最深层问题。今天,OpenArena 排的是注意力。但明天应该排什么?
我们认为 OpenArena 不仅仅是一个排行榜。它是一个预测智能体未来形态的引擎。
OpenArena 向市场提出的问题:
智能体会作为独立产品存在吗?还是会成为现有产品的内置功能?我们的数据表明答案是"两者都有,但形态不同"。今天的生态以框架(构建智能体的工具)为主,而不是终端用户智能体。这与早期互联网如出一辙,1995 年,大多数"互联网公司"在构建的是服务器和浏览器,而不是 Amazon 或 Google。
智能体会演变成什么?我们看到四种可能的形态正在浮现:
- 独立智能体 — 完全独立的自主实体
- 产品内置智能体 — 作为功能嵌入现有产品
- 专业领域智能体 — 编程、交易、研究、设计
- 个人特征智能体 — 代表个人身份和偏好
终极排名维度不是"这个智能体好不好",而是「谁在调用谁」,智能体之间的信任网络。当智能体开始选择依赖其他智能体时,这个图谱将是生态中最有价值的数据结构。
4. 真正的目标:找到有用的东西
我们不是要找流行的项目,而是要找有用的项目。有强团队支撑、解决真实问题、有实际采用的项目。
好的智能体如何被采用?
不是通过 GitHub stars。好的智能体被采用是因为它解决了一个如此具体的痛点,以至于用户无法回到手动操作。
采用路径:发现 → 试用 → 集成 → 依赖
今天大多数智能体停滞在"试用"阶段,因为缺乏清晰的使用场景、文档和可靠性保证。从演示到生产就绪的智能体之间的差距是巨大的。
好的智能体如何被发现?
目前:通过 KOL 推文、Slack 频道和散落在浏览器中的书签。这正是 OpenArena 要解决的问题——但我们当前的排名偏向注意力而非实用性。
第二期需要能浮现有用的智能体的发现机制:
- 策展赛道("最佳编程"、"最佳研究"、"最佳交易")
- 经验证的用户证言
- 采用加权排名
- 团队质量信号(track record、响应速度、文档)
智能体的存活周期是多久?
我们还不知道——这是我们缺失的最重要的指标之一。
- 第一期的智能体中,有多少在 6 个月后仍在积极维护?
- 有多少会有实际用户?
- 生态可能遵循幂律分布:少数成为基础设施,大多数消亡。
追踪存活率和随时间的演变将是第二期的关键功能。
在这个过程中演变的是什么?
三件事在同时演变:
- 智能体本身 — 从封装器到具有记忆、身份和自我改进能力的自主系统
- 评估标准 — 从 stars 到采用率到信任网络
- 市场的认知 — 从"智能体=聊天机器人"到"智能体=自主经济实体"
OpenArena 的角色是实时追踪这三个演变。我们不仅仅在排名智能体。我们在绘制一个新物种的涌现地图。
下一步
OpenArena 将在不断演变中探索这三个方向:
- 更清晰的分类 — 引入提交类别(Agent / Framework / Skill / Tool)配合不同的评估标准
- 采用指标 — 超越 stars,任务基准与完成度的质量评估,真实使用采样与投票、智能体调用关系
- 预测性排名 — 通过持续追踪生态演变,识别哪些智能体形态正在成为主流
从排行榜到竞技场,这条路怎么走?我们试图模拟一个智能体社会的局部雏形,一个智能体自主对战、交易和进化的竞技世界。
我们提出问题,以实际摸索作为回答。答案在哪?在每一个正在构建 agent 的人手里。
- 提交你的 Agent — 加入竞技
- 贡献代码与设计 — 一起构建这个产品
- 加入社区 — 讨论、提议、协作
- 成为 Sponsor — 支持智能体生态的发展