
体验地址:
自2022年11月ChatGPT发布以来,国内外厂商、科研机构的生成式大模型如雨后春笋般涌现。建立准确、客观、快速的生成式大模型能力评测体系,对算法研究和工程赋能有重要意义。
生成式大模型可以被应用于非常广阔、开放的场景。本测评从以下9个维度对各模型能力进行评估:
本测评分为两步骤:
定性:结合前期深度试用、体验大模型的经验,综合3位测评者的主观意见,给出定性结论
定量:对各能力维度构建测试集和打分细则,对待测评的大模型实施测评,给出定量结论
第1梯队:GPT-3.5
第2梯队:讯飞星火 、ChatGLM-130B 、百度文心、通义千问
第3梯队:ChatGLM6B 、 MOSS-sft
评测带有主观意识,仅供参考,不代表官方意见,如有问题请指出,谢谢