“模型”商汤大模型“商量”多个评测表现超ChatGPT

2023-06-23 09:05:20来源:媒体滚动

今天,很高兴为大家分享来自媒体滚动的商汤大模型“商量”多个评测表现超ChatGPT,如果您对商汤大模型“商量”多个评测表现超ChatGPT感兴趣,请往下看。

本报讯 (记者沈湫莎)商汤科技近日公布了自研中文语言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三个权威大语言模型评测基准的成绩。评测显示,“商量”在这三个测试集中的表现均领先ChatGPT,实现了我国语言大模型研究的突破。

全球三大权威语言模型测评基准分别为由美国加州大学伯克利分校等高校构建的多任务考试评测集MMLU、由微软研究院推出的学科考试评测集AGIEval(含中国高考、司法考试及美国SAT、LSAT、GRE和GMAT等),以及由上海交通大学、清华大学和英国爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集C-Eval。

截至6月,全球范围内正式发布的大语言模型已超过40款,其中由中国厂商、高校、科研院所等发布的大语言模型近20款。在MMLU测评中,“商量2.0”综合得分为68.6,超ChatGPT(67.3分),仅落后于GPT-4(86.4分)位居第二;在AGIEval测评中,“商量2.0”得分49.9分,超ChatGPT(42.9分),仅次于GPT-4的56.4分。在C-Eval测评中,“商量2.0”得分66.1分,在参评的18个大模型中,仅次于GPT-4(68.7分)。

4月,商汤发布“日日新”大模型体系以及中文语言大模型“商量”。目前,“商量”已在众多行业和场景中落地应用,已有近千家企业客户通过申请,应用和体验“商量2.0”的长文本理解、逻辑推理、多轮对话、情感分析、内容创作、代码生成等综合能力。在服务客户过程中,“商量2.0”持续迭代和提升,并实现知识的实时更新。

好了,关于商汤大模型“商量”多个评测表现超ChatGPT就讲到这。


返回科技金融网首页 >>

版权及免责声明:凡本网所属版权作品,转载时须获得授权并注明来源“科技金融网”,违者本网将保留追究其相关法律责任的权力。凡转载文章,不代表本网观点和立场,如有侵权,请联系我们删除。


相关文章