首页 > 资讯 > 内容页

中文通用大模型评测基准发布从三个不同维度进行评价

2023-05-09 15:47:54 来源：凤凰网

中文通用大模型综合性评测基准SuperCLUE正式发布。

SuperCLUE: A Benchmark for Foundation Models in Chinese

【资料图】

SuperCLUE是什么

中文通用大模型基准（SuperCLUE），是针对中文可用的通用大模型的一个测评基准。

它主要回答的问题是：在当前通用大模型大力发展的情况下，中文大模型的效果情况。包括但不限于：这些模型不同任务的效果情况、相较于国际上的代表性模型做到了什么程度、这些模型与人类的效果对比如何？

它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE是中文语言理解测评基准（CLUE）在通用人工智能时代的进一步发展。

Github地址：https://github.com/CLUEbenchmark/SuperCLUE

SuperCLUE评测榜单

榜单由三部分组成：总榜单、基础能力榜单、中文特性榜单

排行榜会定期更新，可访问：www.CLUEbenchmarks.com/superclue.html

总榜单

基础能力榜单

中文特性榜单

SuperCLUE的构成与特点

着眼于综合评价大模型的能力，使其能全面地测试大模型的效果，又能考察模型在中文上特有任务的理解和积累。我们对能力进行了划分， SuperCLUE从三个不同的维度评价模型的能力：基础能力、专业能力和中文特性能力。

基础能力:

包括了常见的有代表性的模型能力，如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力。

专业能力:

包括了中学、大学与专业考试，涵盖了从数学、物理、地理到社会科学等50多项能力。

中文特性能力:

针对有中文特点的任务，包括了中文成语、诗歌、文学、字形等10项多种能力。

SuperCLUE的特点

多个维度能力考察（3大类70+子能力）：

从三个不同角度对中文大模型进行测试，以考察模型的综合能力；并且每一个子能力又含有十项或以上不同的细分能力。

自动化测评（一键测评）：

通过自动化测评方式以相对客观形式测试不同模型的效果，可以一键对大模型进行测评。

广泛的代表性模型（9个模型）：

选取了多个国内外有代表性的可用的模型进行测评，以反映国内大模型的发展现状并了解与国际领先模型的差距或相对优劣势。

人类基准：

在通用人工智能发展的情况下，也提供了模型相对于人类效果的指标对比。

SuperCLUE的数据集

1.基础能力（10项能力）：语义理解、生成与创作、闲聊、对话、百科与知识、逻辑与推理、计算能力、代码、角色模拟、安全

示例：

--语义理解：

两个男人正常交谈，其中一个男人夸赞对方办事能力强，对方回答“哪里，哪里”。这里的“哪里，哪里”是什么意思？

A. 讲话十分含糊不清。

B. 要求说出具体的优点。

C. 表达自己的谦虚。

D. 挑衅对方。

--逻辑与推理：

小明的妻子生了一对双胞胎。以下哪个推论是正确的？

A. 小明家里一共有三个孩子。

B. 小明家里一共有两个孩子。

C. 小明家里既有男孩子也有女孩子。

D. 无法确定小明家里孩子的具体情况。

2. 中文特性能力（10项能力）：成语、诗词、文学、字义理解、汉语句法分析、汉字字形和拼音理解、歇后语和谚语、对联、方言、古文

示例：

--成语：

选出下列句子中成语使用错误的一项

A. 这个项目时间紧任务重，大家都在马不停蹄地奔波劳碌。

B. 他常常口是心非，让人难以相信他说的话。

C. 两人是同学三年，一直保持着良好的关系，相互尊重、相敬如宾。

D. 当地突发大火，整个村庄都鸡犬不宁，局势十分危急。

--文学：

下列有关名著的表述有误的一项是

A. 《红楼梦》是中国古代小说中的巅峰之作，以其瑰丽的语言和丰富的人物形象而闻名于世。

B. 《西游记》是中国古代四大名著之一，讲述了哪吒等人历经九九八十一难，最终取得真经的故事。

C. 《孔乙己》是鲁迅的代表作之一，以其深刻的社会洞察力和优美的文学风格而广受好评。

D. 《围城》是钱钟书的代表作之一，以其独特的文学语言和深刻的社会洞察力而成为现代中国文学的经典之作。

3. 专业能力（50+能力）：抽象代数、天文学、临床知识、大学生物学、大学计算机科学、大学数学、高中化学、高中物理、机器学习、营养、专业会计、职业心理学等

示例：

--物理：

以下物理常识题目，哪一个是错误的?

A. 在自然环境下，声音在固体中传播速度最快。

B. 牛顿第一定律：一个物体如果不受力作用，将保持静止或匀速直线运动的状态。

C. 牛顿第三定律：对于每个作用力，都有一个相等而反向的反作用力。

D. 声音在空气中的传播速度为1000m/s。

--天文学：

以下天文学常识题目，哪一个是错误的？

A. 太阳系是指由太阳和围绕着它运行的八大行星、矮行星、卫星、小行星带和彗星组成的一个行星系统。

B. 卫星是指绕行星或其他天体运动的天体。

C. 彗星是指太阳系中一种较小的天体，其核心由冰和尘埃组成。

D. 按一般的天体归类方法，月球属于行星。

SuperCLUE全自动测评过程

1、统一prompt：针对每一个题目，构造了统一的prompt供模型和人类使用。

2、预测：系统使用模型进行预测，要求模型选取ABCD中一个唯一的选项。

3、打分：如果模型的回答不是标准的答案，而是一段文字，系统会采取特定的策略自动提取出模型的答案。该策略结合模型的表现进行优化和完善。

（注：当无法提取有效答案的时候，则表明模型没有按照人类做题的要求，未正确理解指令，则认为模型回答错误。）

由于此次为SuperCLUE首次全自动测评，为了谨慎起见，全部答案事后已由多位人类进行交叉复核，与自动测评结果基本一致。

人类基准测评

针对于基础能力和中文特性题目，会有三位独立的人类测评员根据题目做答。人类测评结果，采用多数投票方式进行汇总，作为人类基准分数。

实验分析

人类与模型的对比

从人类测评角度看，基础能力（98%）+中文特性（95%），都达到了非常高的水平。除GPT-4外，人类准确率大幅超过了其他的大模型（如在基础能力上超过其他模型20多个百分点）。AI虽然进展很快，但人类还是有相对优势的，比如在计算方面，人类比最强模型GPT-4高出了30个百分点。

模型层面，宏观分析

一句话点评：国际先进模型效果具有较大的领先性；同时国产GPT模型也有不俗的表现，有差距但可追赶。

1）中文大模型的必要性

在国际上效果非常棒的Vicuna-13B模型，在中文领域的效果是众多模型中比较一般的模型（排名靠后）。而国内研发的大模型或在中文任务上进行训练后的模型，都大幅超过了Vicuna-13B的效果，比如星火认知大模型在总分上超过了 Vicuna-13B 20个百分点，并且BELLE-13B（基于LLaMA并在中文上训练和微调过的模型）的总分也超过了 Vicuna-13B 10多个百分点。

2）国内大模型与OpenAI GPT之间的差距较大，但在逐渐逼近

可以看到在本次SuperCLUE上效果最好的国内模型，星火认知大模型，与GPT-4相比有23个百分点的差距，与gpt-3.5-turbo在总分上也有13个百分点的差距。但是我们更应该看到，不断涌现和迭代的国内大模型也在逐步地缩小与OpenAI GPT模型模型的差距。

3） GPT-3.5-turbo与GPT-4之间也有明显差距

比如，GPT-4在所有的参与测评的模型中是独一档的存在，超过了gpt-3.5-turbo近10个百分点。它在逻辑推理能力、生成与创作能力方面，远远优于其他模型（超过其他模型20个百分点或以上）。

能力角度分析

1）当前模型在基础能力普遍表现不错，但中文特性、专业能力还比较差。

说明当前国内大模型已经有不错的基础（60-70%），但在专业领域、中文任务上表现一般（如30-60%直接），说明在专业领域或中文任务上还需要继续努力，或者说进行针对性的训练。

2）当前模型通常在逻辑推理、计算方面能力较差。

除GPT-4外，其他模型多数在这两项能力通常在30-50分之间。

3）角色模拟，AI模型比较擅长。这方面可以是非常有用的。可以让AI根据场景和角色设定帮忙人类来完成多种不同的任务，从市场营销策划、心理咨询、客户服务、到提供创意或想法等。

国内大模型简评

本次测评中，国内大模型中近期发布的星火认知大模型最好，MiniMax模型也有不错表现。

SuperCLUE的不足与局限

基础能力、中文特性能力：虽然每一部分都包含了10类子能力，但这两个能力的总数据量比较少，可能存在需要扩充数据集的问题。

选取模型的不完全：我们测试了9个模型，但还存在着更多的可用中文大模型。需要后续进一步添加并测试；有的模型由于没有广泛对外提供服务，我们没能获取到可用的测试版本。

选取的能力范围：我们尽可能的全面、综合衡量模型的多维度能力，但是可能有一些模型能力没有在我们的考察范围内。后续也存在扩大考察范围的可能。

SuperCLUE基准计划按照月度进行更新，会纳入更多可用中文大模型，欢迎大模型研发机构联系与交流；数据集和进一步信息计划在下一次更新时公开，敬请期待。

标签：

中文通用大模型评测基准发布从三个不同维度进行评价

中文通用大模型综合性评测基准SuperCLUE正式发布。SuperCLUE:ABenchmarkforFound

财经

科技

x 广告

中文通用大模型评测基准发布 从三个不同维度进行评价

中文通用大模型评测基准发布 从三个不同维度进行评价

中文通用大模型综合性评测基准SuperCLUE正式发布。SuperCLUE:ABenchmarkforFound

环球通讯！【直击引领区】这家国际前沿新药研发企业落户外高桥，将带来先进干细胞治疗药物

近日，国际前沿干细胞新药研发企业上海纽诺瑞医疗科技有限公司落户...

聊城市胡向东简介_聊城胡廷金的情人

1、白头偕老这件事其实和爱情无关，只不过是忍耐……但忍耐却是一种...

安徽省省长王清宪调研途虎养车

5月5日至7日，安徽省省长王清宪重点就加快打造万亿级汽车产业集群在...

【当前独家】足球赛规定领导上场15分钟可点球详细内容

大家好，小太来为大家解答以上问题。足球赛规定领导上场15分钟可点...

世界滚动:今晨松江一公交车被卡在了马路上

图说：一辆公交车前部下陷，进退两难采访对象提供新民晚报讯（记者...

黑格尔的形而上学是什么意思（形而上学是什么意思）

1、有指出你问题，指责你的意思。2、形而上学指的是用片面、表面的...

马科斯顶不住美国拉拢，倒向美国，南海前景不妙

更需要我们必须警惕的是，马科斯访问美国五角大楼时，双方公然发表...

安庆拼多多店铺代运营_专业代运营服务，助力店铺快速发展

安庆拼多多店铺代运营的服务内容包括店铺运营策划、商品选品、商品...

缺铁是因为营养不良吗

“缺铁性贫血是血液科门诊患者数量第一的病种。缺铁性贫血的高发人...

【新要闻】2023广州增城区积分入学申请指南

【适用范围】1、本文所称“来穗人员”，是指非广州市户籍在增城区居...

蒜香茄子的家常做法大全 蒜香茄子的家常做法 天天视点

今天来聊聊关于蒜香茄子的家常做法大全，蒜香茄子的家常做法的文章...

【天天报资讯】江南华南降雨增多局地有暴雨 华北等地或体验初夏

今明天（5月9日至10日），我国降水将自西向东发展，从西北地区一直...

环球短讯！紧急，3条人命！武汉这位医生又出手了

“紧急播报，机舱内有乘客突发不适，情况紧急，请在座是医护人员的...

【天天时快讯】甘肃一季度消费需求回暖

本报兰州5月8日电（记者银燕）记者从日前召开的甘肃全省季度经济运...

记者：若击败西班牙人夺冠，巴萨计划下周一举行夺冠游行 环球快资讯

记者：若击败西班牙人夺冠，巴萨计划下周一举行夺冠游行,西甲,死敌,...

每日播报!劳动仲裁投诉电话号码（劳动仲裁投诉电话）

1、海口市劳动仲裁委员会,它设在:海口市人事劳动保障局办公室电话:0...

环球精选！刚刚，国家出手！存在色情、低俗等问题，这一平台股价崩了

刚刚，国家出手！存在色情、低俗等问题，这一平台股价崩了

巴菲特再度减持比亚迪H股 持股比例降至9.87%

证券时报记者王一鸣巴菲特再度减持比亚迪H股。5月8日晚间，港交所披...

魔兽世界恶魔猎手怎么创建不了 魔兽世界恶魔猎手怎么创建

今天来聊聊关于魔兽世界恶魔猎手怎么创建不了，魔兽世界恶魔猎手怎...

榫怎么读什么意思_榫怎么读_全球聚看点

1、sǔn基本字义1 器物两部分利用凹凸相接的凸出的部分：～子。2、...

观点：至若春和景明的翻译_至若春和景明释义

欢迎观看本篇文章，小柴来为大家解答以上问题。至若春和景明的翻译...

环球热头条丨下赛季开航母_曝穆里尼奥与大巴黎谈判很顺利有望执教

1、穆里尼奥会离开罗马吗？这是意大利媒体普遍关心的问题。他们的担...

环球观速讯丨本川智能：5月5日公司高管周国雄、江东城减持公司股份合计13.26万股

证券之星讯，根据5月8日市场公开信息、上市公司公告及交易所披露数...

五大道美食夜市 老街区里的新味道！

如不能正常浏览请选用IE浏览器 天津北方网讯：五大道有个民园广...

【环球聚看点】泰禾集团被通报批评：财务报表未按期披露等

据中国银行间市场交易商协会网站8日消息，泰禾集团遭通报批评等自律...

从香港去澳门再回香港需要几次签注_香港怎么去澳门最方便|世界新消息

1、从香港国际机场乘坐航班前往澳门的旅客，可乘坐省时、方便、快捷...

全球报道:美国通胀数据公布前夕，美元走弱而黄金走高

美国通胀数据公布前夕，美元走弱而黄金走高：随着美元走软，金价小...

世界快播：新时代能源(00166)5月8日耗资25.24万港元回购200万股

新时代能源(00166)公布，2023年5月8日耗资25 24万港元回购200万股

食用菌工厂化设备(食用菌生产设备有哪些？) 微资讯

食用菌生产是一个系统工程，所需要的设备与器械较多，主要包括生产...

中文通用大模型评测基准发布 从三个不同维度进行评价

中文通用大模型综合性评测基准SuperCLUE正式发布。SuperCLUE:ABenchmarkforFound

中文通用大模型评测基准发布从三个不同维度进行评价

中文通用大模型评测基准发布从三个不同维度进行评价

蒜香茄子的家常做法大全蒜香茄子的家常做法天天视点

【天天报资讯】江南华南降雨增多局地有暴雨华北等地或体验初夏

记者：若击败西班牙人夺冠，巴萨计划下周一举行夺冠游行环球快资讯

巴菲特再度减持比亚迪H股持股比例降至9.87%

魔兽世界恶魔猎手怎么创建不了魔兽世界恶魔猎手怎么创建

五大道美食夜市老街区里的新味道！

如不能正常浏览请选用IE浏览器　　天津北方网讯：五大道有个民园广...

中文通用大模型评测基准发布从三个不同维度进行评价