- OpenCompass介绍 评测对象:
- 基座模型:续写能力
- 对话模型:对话能力 评测维度:
- 在模型通用能力方面:评测语言、知识、理解、推理、安全
- 在特色能力方面:评测长文本、代码、工具、知识增强 评测方式:
- 主观评测:评估模型在具有确定答案(如选择,填空,封闭式问答等)的任务上的能力
- 客观评测:采用基于模型辅助的主观评测和基于人类反馈的主观评测两种方式 在具体开展主观评测时,OpenComapss采用单模型回复满意度统计和多模型满意度比较两种方式开展具体的评测工作。
- 快速开始 在 OpenCompass 中评估一个模型通常包括以下几个阶段:配置 -> 推理 -> 评估 -> 可视化