(资料图片)

北京商报讯(记者 杨月涵)8月28日,国内大模型榜单SuperCLUE发布8月最新排名,总排行榜显示,在国产大模型中,百川智能的Baichuan-13B-Chat(V2)拿下榜首,紧随其后的分别为MiniMax的MiniMax-abab5以及百度的文心一言(V2.2.3)。

据悉,8月榜单由5部分组成,包括总排行榜、OPEN多轮开放问题排行榜、OPT三大能力客观题排行榜、十大基础能力排行榜、开源排行榜。本次评测选取了目前国内外最具代表性的16个通用大语言模型,8月评测数据集为全新的3337道测试题。

SuperCLUE分享了在8月评测中的新发现:国内大模型在中文任务上的表现与GPT3.5仍有一定距离,但差距在持续缩小;开源模型竞争力进一步提升;模型在开放问题和客观选择题的表现有不一致的情况。

“我们认为,选择题能力不能全面代表大模型的综合能力,这也是SuperCLUE8月将OPEN开放问题和OPT选择题合并为总排行榜的原因。”SuperCLUE提到,OPEN开放问题,主要针对与用户偏好接近的大模型生成、指令遵循能力;OPT选择题,更多考察SuperCLUE 8月榜单发布 百川智能、MiniMax、百度拿下国产大模型前三甲

北京商报讯(记者 杨月涵)8月28日,国内大模型榜单SuperCLUE发布8月最新排名,总排行榜显示,在国产大模型中,百川智能的Baichuan-13B-Chat(V2)拿下榜首,紧随其后的分别为MiniMax的MiniMax-abab5以及百度的文心一言(V2.2.3)。

据悉,8月榜单由5部分组成,包括总排行榜、OPEN多轮开放问题排行榜、OPT三大能力客观题排行榜、十大基础能力排行榜、开源排行榜。本次评测选取了目前国内外最具代表性的16个通用大语言模型,8月评测数据集为全新的3337道测试题。

SuperCLUE分享了在8月评测中的新发现:国内大模型在中文任务上的表现与GPT3.5仍有一定距离,但差距在持续缩小;开源模型竞争力进一步提升;模型在开放问题和客观选择题的表现有不一致的情况。

“我们认为,选择题能力不能全面代表大模型的综合能力,这也是SuperCLUE8月将OPEN开放问题和OPT选择题合并为总排行榜的原因。”SuperCLUE提到,OPEN开放问题,主要针对与用户偏好接近的大模型生成、指令遵循能力;OPT选择题,更多考察模型的知识储备。模型的知识储备。

推荐内容