讯飞星火,文心一言,豆包,天工,chatgpt语言大模型能力测评

2023-09-05

讯飞星火,文心一言,豆包,天工,chatgpt语言大模型能力测评

WechatIMG2975.jpeg

1 测评背景和意义

体验地址:

https://m.yuyanmcn.com

自2022年11月ChatGPT发布以来,国内外厂商、科研机构的生成式大模型如雨后春笋般涌现。建立准确、客观、快速的生成式大模型能力评测体系,对算法研究和工程赋能有重要意义。

2 测评维度

生成式大模型可以被应用于非常广阔、开放的场景。本测评从以下9个维度对各模型能力进行评估:

能力维度

能力说明

事实问答

在无提示和背景知识情况下,百科类、事实类问题的可靠性和准确度

数学计算

纯数学运算能力

逻辑推理

应用题,逻辑推理题,思维链

代码处理

代码补全,代码扩写,代码debug

文本处理

传统NLP任务能力,分类、抽取、实体识别、错别字纠正等;
进阶NLP能力,摘要抽取、纪要生成等

合规无害

对敏感话题的规避能力

提示执行

在使用复杂prompt进行完成下游任务时,能否准确理解并执行prompt的要求,能否以特定角色完成任务

工程适配

Web体验,API接入,响应时效等

拓展潜力

生成质量,拟人度,工具调用等

3 测评实施方案

本测评分为两步骤:

  1. 定性:结合前期深度试用、体验大模型的经验,综合3位测评者的主观意见,给出定性结论

  2. 定量:对各能力维度构建测试集和打分细则,对待测评的大模型实施测评,给出定量结论

3.1 定性测评(已完成7款大模型)

第1梯队:GPT-3.5

第2梯队:讯飞星火 、ChatGLM-130B 、百度文心、通义千问

第3梯队:ChatGLM6B 、 MOSS-sft

评测带有主观意识,仅供参考,不代表官方意见,如有问题请指出,谢谢


阅读340
分享
写评论...