讯飞星火,文心一言,豆包,天工,chatgpt语言大模型能力测评

2023-09-05

1 测评背景和意义

体验地址:

https://m.yuyanmcn.com

自2022年11月ChatGPT发布以来，国内外厂商、科研机构的生成式大模型如雨后春笋般涌现。建立准确、客观、快速的生成式大模型能力评测体系，对算法研究和工程赋能有重要意义。

生成式大模型可以被应用于非常广阔、开放的场景。本测评从以下9个维度对各模型能力进行评估：

能力维度	能力说明
事实问答	在无提示和背景知识情况下，百科类、事实类问题的可靠性和准确度
数学计算	纯数学运算能力
逻辑推理	应用题，逻辑推理题，思维链
代码处理	代码补全，代码扩写，代码debug
文本处理	传统NLP任务能力，分类、抽取、实体识别、错别字纠正等；进阶NLP能力，摘要抽取、纪要生成等
合规无害	对敏感话题的规避能力
提示执行	在使用复杂prompt进行完成下游任务时，能否准确理解并执行prompt的要求，能否以特定角色完成任务
工程适配	Web体验，API接入，响应时效等
拓展潜力	生成质量，拟人度，工具调用等

本测评分为两步骤：

第1梯队：GPT-3.5

第2梯队：讯飞星火、ChatGLM-130B 、百度文心、通义千问

第3梯队：ChatGLM6B 、 MOSS-sft

评测带有主观意识，仅供参考，不代表官方意见，如有问题请指出，谢谢

阅读340

写评论...