术语表
AIpricly 所用指标和术语的定义。
- 编辑团队估算 · 智力指数
- 由 AIpricly 编辑团队基于公开基准(MMLU、HumanEval、GPQA、MATH)以及 Artificial Analysis(可比时)给出的能力估算(0–100)。在 AA 合作伙伴 API 接入后将替换为官方分数。编辑团队估算 · 整列 →
- Arena Elo
- 来自 LMArena 的人类偏好 Elo 评分(800–2000)——真实用户在不知道模型名称的情况下进行盲测投票。衡量用户感知质量,而非仅依赖基准测试。LMArena 排行榜 →
- P50 延迟(TTFT)
- 基准测试中首字延迟的中位数(秒)。越低越快。
- 吞吐量
- 首字之后的持续输出速度(token/秒)。越高越快。
- 上下文窗口
- 输入加输出的最大 token 长度。窗口越大,支持的文档、对话历史和代码文件越长。