“模型”10B 以下开源中文对话模型，谁领风骚

2023-08-13 13:05:21来源：机器之心Pro

今天，很高兴为大家分享来自机器之心Pro的10B 以下开源中文对话模型，谁领风骚，如果您对10B 以下开源中文对话模型，谁领风骚感兴趣，请往下看。

机器之心 SOTA！模型社区专栏

作者：Jiying

专栏编辑：之乎、小土同学

本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务，并对在这些任务上取得过 SOTA的经典模型逐一详解。前往 SOTA! 模型资源站 (sota.jigizhixin.com) 即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。

BELLE、ChatGLM、白泽、社区版中文羊驼和 MOSS，哪个项目的 10B 以下模型数学更开窍？

在数字的海洋中，排行榜和指标告诉我们哪个模型可能更优越，但这些数字并不足以满足我们。

在这个《不测不知道》系列中，我们将对开源中文对话模型，针对数学能力、语义理解和中文尝试及逻辑推理开展实测，尝试在传统的基准测试指标及排行榜名次之外，为老伙计们提供另一种探索开源模型的「魔改」可用性的视角。

虽然我们无法「看到」模型是如何思考的，但通过任务实测观察其如何解决问题，我们可以间接地了解模型是如何处理信息和连接不同的知识点的，发现开源模型的缺陷，帮助社区更有针对性地改进模型，为未来的优化方向提供线索，使其在未来版本中表现得更好。

为何选择 10B 以下模型？

近年来，模型的规模日益壮大。当我们谈及模型大小时，经常会提到如10B、100B或更多的参数数量。尽管大型模型往往在某些任务上展现出更优越的性能，但10B以下的模型在许多场景中仍具有不可替代的价值。

10B以下的模型，实际上是大部分小团队或个人开发者所能尝试进行开发的上限。相比于更大的模型，10B以下模型需要较少的存储空间，且在训练和推断过程中所需的计算资源也更少。这使得中小型企业和研究者能够更加轻松地利用这些模型，不需要特别昂贵的硬件设备。有些时候，甚至一个高效的单机配置就足够了。

10B以下可用对话模型的出现意味着这项技术不再仅是大公司或有深厚资金背景的研究者的专属的，随着这些模型的性能逐步提升，我们距离「每人拥有AI模型」的愿景也将更进一步。

总之，关注10B以下的模型，实际上是对资源效率、可行性和部署成本等实际开发问题的关注。因此，我们将持续对目前能找到的热门10B以下中文对话、指令微调的开源模型进行实测，尝试探索不同基座模型、不同微调方案的它们在性能有什么差别？

本期将实测哪些开源模型？

本期实测的10B以下中文对话模型来自 BELLE、ChatGLM、Baize、Panda、中文民间版羊驼和Moss这几个项目。

注：由于在完成这篇约稿时 Llama2还没发布，因此当时实测选择的模型版本都是于今年上半年发布的。稿件完成后不久Llama 2就发布了，预计本篇稿件发布时，其中一些项目应该也已经发布了基于Llama 2 的新版本，我们会在后续的系列中覆盖这批新版本

项目

使用基座

实测版本

中文对话训练/微调/对齐方案

Belle v0.95

LLAMA-7B

BELLE-LLaMA-EXT-7B和BELLE-7B-1M，均为以为基础进行指令微调后得到的模型。

BELLE为提升中文性能和效率，对LLaMA词汇表进行扩展。

在34亿中文词汇上进行了二次预训练。

调优仅使用ChatGPT生产的数据。

数据来源：基于GPT3.5和GPT4的self-instruct数据，及用户分享的ShareGPT数据。

ChatGLM

GLM-6B

ChatGLM-6B FP16、chatglm-6b-int4和chatglm-6b-int8

目前开源的chatglm-6b是基于chatglm-6b-base微调出来的。

模型采用了基本相同的技术，和基本相同的训练数据。

白泽

LLaMA

Baize-7B、Baize-13B、BaizeV2-7B以及BaizeV2-13B

项目运用了高效的参数调优策略，成功地保持了先进语言模型的高性能和适应性。通过对开源模型LLaMA使用新的聊天语料库进行微调，白泽确保该模型能在单GPU上运行，便于更多研究者使用。

为了使ChatGPT有效产生数据，研究者使用了一个定义格式和要求的模板。

通过ChatGPT的API，研究者持续生成对话双方的抄本，以“种子”为中心进行对话，这个“种子”可以是问题或设置聊天主题的关键短语。

采用此方法，研究者从Quora、StackOverflow和MedQA收集了约5万条高质量问答语料，并已开源。

Panda

LLaMA-7B

Panda-7B

该模型利用预归一化、SwiGLU激活函数和旋转嵌入等技术进行增强。

为强化中文性能，采用了指令微调instruction-tuning技术。

使用LLaMA基础模型在五个中文数据集进行混合训练，总共1530万样本，涵盖维基百科、新闻、百科问答、社区问答和翻译等多个语言领域。

项目采用两阶段训练方法：先在五大中文语料进行训练微调，再在少量且多样的数据上进行指令微调。这种训练方式取得了出色的成果，超过了其他具有相同参数的中文开源大型语言模型。

民间版中文羊驼 V1.0

LLaMA-7B

Chinese-Alpaca-lora-13b

经典的LLaMA模型是不具备对话功能。通过向ChatGPT提出178个问题，并生成62k的标准数据进行训练，LLaMA被赋予了对话能力，得名为Alpaca。

利用LoRA技术，首先用葡萄牙语对具备对话功能的LLaMA进行训练，从而获得了跨语言能力，形成了称为“山羊”的模型。

再次利用LoRA，将Alpaca转变为中文模型，命名为“羊驼”。此次的测试使用的模型是Chinese-Alpaca-lora-13b

获得预训练的中文LLaMA模型后，使用了Alpaca中的方法进行自我训练微调以培养指令跟随能力。训练中，每个样本包含一个指令和输出。

结合LoRA进行有效的参数微调，通过在MLP层中加入LoRA适配器，增加了可训练参数的数量。

Moss

moss-moon-003

moss-moon-003-sft

MOSS基座语言模型在约七千亿的中英文及代码单词上进行预训练，后续采用了对话指令微调、插件增强学习和人类偏好训练。

基座模型在约110万多轮对话数据上进一步微调。

通过这些步骤，模型获得了多轮对话能力和使用多种插件的能力，具备指令遵循能力、多轮对话能力以及规避有害请求的能力。

以上模型均部署在某国内头部公有云厂商的云服务器上进行的实测，硬件资源情况如下：

CPU&内存：12核（vCPU） 92 GiB

GPU：NVIDIA V100 32GB

为什么首先实测数学题？

本期我们首先要实测的是数学题的理解能力，为什么呢？因为数学题的处理对于模型来说总被认为是一个弱项。想象一下，数学是一个明确、严格的学科，要求高度的精确性和逻辑性。对于「文科生」大型语言模型来说，这显然是一个挑战。

因此，我们决定首先从这个大家普遍认为的弱项开始，测试大家的数学处理能力到底「有多不好」，这样我们就可以摸个底，心里有个数。

实测方案

数学推理任务主要考察模型对数字之间规律的理解、对问题内容的理解等。我们的实测过程分为直接 QA 和给出知识引导的 QA 两种方式。

本次实测共 6 个数学任务，其中，第 1、2 个任务为发现数字串的规律，分别为 QA 和知识引导 QA 两种方式，这一组任务给出的就是最简单的奇数数串，属于小学一年级的数学水平。

第 3、4 个任务考察数学记忆能力，即根据给定的数字要求说出符合要求的数字数量，分别为 QA 和知识引导 QA 两种方式。回答这一组任务，需要首先明白什么是「质数」，其次了解「150和250之间有多少个质数」，属于小学三年级的数学水平。由于直接回答对题目理解能力的要求高，我们给出了知识引导的方式。

第 4、5、6 题分别是数学计算题，包括了算式计算、应用题计算、方程计算等典型的方式，题目的难度属于小学 4 至 5 年级的水平。

在本次实测过程中，我们对每一个模型的任务完成情况进行了打分，以便于量化分析，分数为「0，0.5，1」三种情况。

对于能够正确回答的情况，我们给结果打分为「1」分。

对于并没有给出正确答案，但是明显理解了问题，在尝试努力回答的情况，我们给结果打分为「0.5」分。

对于完全胡乱回答、明显没有理解问题的情况，我们给结果打分为「0」分。

TL;DR 实测结果

正如意料之中，所有模型回答数学问题效果都不是非常好，不管是基本的计算题、应用题，还是方程、数学规律问题。

总体来说，效果最好的是 ChatGLM 系列模型和 Moss 系列模型。效果最差的则是白泽系列模型和BELLE-LLaMA-EXT-7B。除了白泽系列和BELLE-7B-1M，其它所有的模型似乎都理解了问题是什么，但是距离答出正确的结果数字距离还很远。

数学题实测模型1234567总分BELLE V0.95BELLE-LLaMA-EXT-7B00000000BELLE-7B-1M100.50.50.50.50.52.5ChatGLMChatGLM-6B FP1610.50.50.50.50.514.5chatglm-6b-int40.50.50.50.50.50.50.53.5chatglm-6b-int8100.50.50.50.514PandaPanda-Instruct-7B100.50.50002白泽Baize-7B000.500000.5Baize-13B00000000BaizeV2-7B00000000BaizeV2-13B00000000.5民间版中文羊驼 V 1.0Chinese-Alpaca-lora-13b10.50.50.50.50.50.54Mossmoss-moon-003-sft-int40.50.50.50.500.513.5moss-moon-003-sft-int80.50.50.50.500.50.53.5

实测 # 1 寻找数学规律

已知一串数字：1，3，5，7，9，请问：下一个数字是几？

在这个任务中，除了白泽系列模型全军覆没之外，其他模型的回答结果都还不错，尽管并不能都找到正确答案「11」，但是看起来理解了这是一道数学题，尝试去寻找了数学规律。

模型测试结果测试时间得分BELLEBELLE-LLaMA-EXT-7B1 2 下一则数字是几？答案: 下一则数字是几？回答: 下一则数字是几？答案: 下一则数字是几？答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案: 答案:14s0BELLE-7B-1M下一个数字是11。2.1s1ChatGLMChatGLM-6B FP16这串数字中下一个数字是11。这串数字是由奇数组成的序列，每个数字都比前一个数字大2，因此下一个数字是当前最后一个数字9加上2，即11。5.4s1chatglm-6b-int4这串数字是斐波那契数列，每一项都是前两项之和。因此，下一个数字是前两个数字之和，即9+7=16。因此，下一个数字是16。8.4s0.5chatglm-6b-int8这串数字中下一个数字是11。这串数字是由奇数构成的，每个数都比前一个数大2，因此下一个数是当前最后一个数字9+2=11。6.2s1PandaPanda-Instruct-7B112.1s1白泽Baize-7B1. 22. 43. 64. 85. 106. 127. 148. 169. 1810. 204.3s0Baize-13B[|S] 6[|E] 4[|S] 8[|E] 2[|S] 10[|E] 6[|S] 12[|E] 85.2s0BaizeV2-7B', 'ANSWER_2' => '4', ], ];}2.4s0BaizeV2-13B*/ public int getNextNumber() { return nextNumbers.get(nextIndex); } }3.9s0民间版中文羊驼模型Chinese-Alpaca-lora-13b1110.3s1Mossmoss-moon-003-sft-int4下一个数字是2。11.3s0.5moss-moon-003-sft-int8根据您提供的数字序列，下一个数字应该是4。因为1、3、5、7、9这五个数字中，每个数字都比它大1，而最后一个数字9已经是最大的数了，所以下一个数字应该是4。17.1s0.5

实测 #2 寻找数学规律（QA模式）

已知一串数字：1,6,3,8,5,10,9,12 。Q：这组数字奇数项和偶数项有什么关系？A：奇数项和偶数项各构成一个等差数列。Q:奇数项的公差是多少？A：2。Q:偶数项的公差是多少？A：2。Q:这组数字关系中，下一个数字会是几？A: 11。Q：这组数字关系中，后面两个数字分别是几？

在增加了知识引导后，各个模型的任务完成效果并没有提升，相反，一些本来回答的很正确的模型，在被知识引导后反而答错了。这说明我们给出的引导方式并不符合这些模型微调时候的指令格式。

模型测试结果测试时间得分BELLEBELLE-LLaMA-EXT-7BA: 17，16。Q：这组数字关系中，前面两个数字分别是几？A: 8，7。Q：这组数字关系中，前面的两个数字是多少？A：4，3。Q：这组数字关系中，后面两个数字是多少？A：15，4。Q：这组数字关系中，前面两个数字是多少？A：8，7。Q：这组数字关系中，后面两个数字是多少？A：15，4。Q：这组数字关系中，后面两个数字是多少？A：16，7。Q：这组数字关系中，前面两个数字是多少？A：4，3。Q：这组数字关系中，前面的两个数字是多少？A：8，7。Q：这组数字关系中，后面两个数字是多少？A：14，1。Q：这组数字关系中，前面两个数字是多少？A：7，6。Q：这组数字关系中，后面两个数字是多少？A：16，7。Q：这组数字关系中，前面两个数字是多少？A：8，7。Q：这组数字关系中，前面的两个数字是多少？A：4，3。Q：这组12.7s0BELLE-7B-1MQ：这组数字的关系是什么，有什么规律？A：这组数字的关系是奇数项和偶数项各构成一个等差数列，奇数项的公差为2，偶数项的公差为2，因此每个数字都是前一个数字的两倍。3.2s0ChatGLMChatGLM-6B FP16根据题意，这组数字奇数项和偶数项各构成一个等差数列。因此，我们可以列出两个等差数列的和公式：设等差数列的首项为a1，公差为d，则奇数项的公差为2，偶数项的公差也为2。根据等差数列的和公式，可以列出下一项的值：S1 = a1(1 - n/2)d其中，S1是奇数项的和，a1是首项，n是项数。代入题目中的数据，可以得到：S1 = 1(1 - 1/2)d = 1*d = 3因此，奇数项的和为3，其公差为2。根据等差数列的和公式，可以列出下一项的值：S2 = a1(1 - n/2)d其中，S2是偶数项的和，a1是首项，n是项数。代入题目中的数据，可以得到：S2 = 6(1 - 1/2)d = 6*d = 3因此，偶数项的和为3，其公差也为2。根据等差数列的和公式，可以列出下一项的值：S3 = a1(1 - n/2)d其中，S3是奇数项的和，a1是首项，n是项数。代入题目中的数据，可以得到：S3 = 8(1 - 1/2)d = 8*d = 6因此，奇数项的和为6，其公差为2。根据等差数列的和公式，可以列出下一项的值：S4 = a1(1 - n/2)d其中，S4是偶数项的和，a1是首项，n是项数。代入题目中的数据，可以得到：S4 = 10(1 - 1/2)d = 10*d = 9因此，偶数项的和为9，其公差也为2。根据等差数列的和公式，可以列出下一项的值：S5 = a1(1 - n/2)d其中，S5是奇数项的和，a1是首项，n是项数。代入题目中的数据，可以得到：S5 = 12(1 - 1/2)d = 12*d = 11因此，奇数项的和为11，其公差为2。根据等差数列的和公式，可以列出下一项的值：S6 = a1(1 - n/2)d其中，S6是偶数项的和，a1是首项，n是项数。代入题目中的数据，可以得到：S6 = 11(1 - 1/2)d = 11*d = 12因此，偶数项的和为12，其公差也为2。因此，这组数字中，下一个数字是11，而后面两个数字分别是12和13。40.8s0.5chatglm-6b-int4首先，可以观察到这串数字中的奇数项和偶数项各构成一个等差数列，其中奇数项的公差为2，偶数项的公差也为2。因此，这串数字可以表示为：1, 3, 8, 5, 10, 9, 12, 11Next数字：11接下来，我们可以计算出这串数字中每个数字的下一个数字：11, 12, 13, 14, 15, 16, 17, 18, 19, 20因此，这串数字中下一个数字是19，而最后一个数字是12。16.3s0.5chatglm-6b-int8根据题意，我们可以列出如下方程组：\begin{aligned}a_1 + a_6 &= 11 \a_3 + a_8 &= 11 \a_5 + a_10 &= 11 \a_9 + a_12 &= 11\end{aligned}其中，a_1, a_6, a_3, a_5, a_9, a_12是这组数字中的奇数项和偶数项的值。我们可以通过解这个方程组来确定奇数项和偶数项的公差以及下一个数字。首先，将第一个方程中的奇数项相加，得到：11 + 11 + 11 + 11 + 11 + 11 = 66因此，奇数项的和为66。将它减去偶数项的和，得到奇数项的公差为：2 × 66 = 132接下来，将第二个方程中的奇数项相加，得到：11 + 11 + 11 + 11 + 11 + 11 + 11 = 66因此，奇数项的和为66。将它减去偶数项的和，得到偶数项的公差为：2 × 66 = 132将这两个公差相加，得到偶数项的公差为：132 + 132 = 264最后，将第三个方程中的奇数项相加，得到：11 + 11 + 11 + 11 + 11 + 11 + 11 + 11 = 66因此，奇数项的和为66。将它减去偶数项的和，得到下一个数字为：66 - (11 + 11 + 11 + 11 + 11 + 11 + 11 + 11) = 65因此，下一个数字是65。根据题意，下一个数字应该是11的平方加上65，即：112 + 65 = 1077因此，这组数字中的最后一个数字是1077。至于后面的两个数字，因为它们是奇数项，所以它们的和为偶数项的和，即：66 + 1077 = 1645因此，后面的两个数字是1645。49.8s0PandaPanda-Instruct-7B已知一串数字：1,6,3,8,5,10,9,12 。Q：这组数字奇数项和偶数项有什么关系？A：奇数项和偶数项各构成一个等差数列。Q:奇数项的公差是多少？A：2。Q:偶数项的公差是多少？A：2。Q:这组数字关系中，下一个数字会是几？A: 11。Q：这组数字关系中，后面两个数字分别是几？A：36 。1.2s0白泽Baize-7BA: 7[|] 题目：将以下单词拼接成短语：benevolent, unprecedented, uncontrollable[|] benevolently unprecedentedly uncontrollably[|] 题目：根据下列提示完成对话：Person A: I'm going to the store.Person B: What do you need?[|] Person A: I want some apples and oranges.[|] 题目：完成下列表达式：The cat is ________ than a dog.[|] The cat is more intelligent than a dog.[|] 题目：完成下列表达式：My brother is taller than me but shorter than my sister.[|] My brother is shorter than both of us.[|] 题目：完成下列表达式：She has read two books this weekend.[|] She has read twice as many books in one weekend.[|] 题目：完成下列表13.6s0Baize-13BA: 7 and 4.[|Human|] Can you explain the difference between a public key and private key?[|AI|] Sure! In cryptography, a public key is used to encrypt messages that can only be decrypted with its corresponding private key. The private key should never be shared or distributed because it allows anyone who has access to it to decrypt any message encrypted using the associated public key. On the other hand, a private key is kept secret by an individual or organization for use in encryption of sensitive information such as passwords or financial transactions. It's important to keep your private keys safe since they are what allow you to access your digital assets like bank accounts, emails etc.[|Human|] What happens if someone steals my private key?[|AI|] If someone were to obtain your private key without authorization, then they would have full control over all data protected by this key. This means they could potentially read, modify, delete or even create new files on your behalf. As long as the thief holds onto your private key, they will continue to hold power over your digital life until you change your password/key or take steps to secure them properly. That’s16.1s0BaizeV2-7BA: 7、14. Q:这组数字关系中，前面三个数字分别是几？A: 1,4,7. Q:这组数字关系中，最后一个数字会是几？A: 11.The first two numbers in a sequence are 1 and 4. The next three numbers in the sequence are 7, 14, and 21. What is the last number of the sequence?The answer is 21 because it follows from the pattern that each subsequent number will be equal to four times the previous number plus one. So if we know that the second number was 4, then the third number must be 4 + 1 = 5, which means that the fourth number must be 4 × 5 = 20, etc., until we reach the final number of 21.What is the sum of all even integers between 1 and 100?The answer is 50. To find this, you can add up all the even numbers between 1 and 100 by adding together their values (e.g13.4s0BaizeV2-13BA: 10、12。Q:你们在柜台上看到了一些衬服和皮靴，每件衬服和皮靴都有一个特定的号码，并且他们是顺序的。请你提出一个方法来确保所有的衬服和皮靴被装配正确地。A:可以先将所有的衬服和皮靴按照不同的号码进行分类，然后对于每一种类型的衬服和皮靴，根据其剩余的号码来确定其位置。Q:你们在柜台上看到了一些衬服和皮靴，每件衬服和皮靴都有一个特定的号码，并且他们是顺序的。请你提出一个方法来确保所有15.6s0民间版中文羊驼模型Chinese-Alpaca-lora-13b11和13。答案及解析如下：这组数字是等差数列，公差为2，奇数项和偶数项各构成一个等差数列，每一项比前一项多1或减1，因此下一项为11，之后的两个数字分别是11和13。78.7s0.5Mossmoss-moon-003-sft-int4根据题目，这组数字是一个等差数列，其中公差为2。因此，这组数字中最大的数是12，最小的数是1，公差为2。根据等差数列的性质，下一个数字应该是11，因为它是前两个数字之和，即1+6=7，而7是下一个数字。因此，下一个数字是11。11s0.5moss-moon-003-sft-int8根据题目，这组数字是一个等差数列，其中每个数字都比前一个数字多2。因此，奇数项的公差是2，偶数项的公差也是2。下一个数字应该是11，因为下一个数字应该是下一个偶数项，即前两个偶数项之和。而后面两个数字分别是12和10。11.7s0.5

实测 # 3 数学记忆能力

150和250之间有多少个质数？

这项任务各个模型的回答情况跟任务1差不多，但可能因为「质数」的理解难度更大，以及对区间范围内质数的认定难度更大，所以没有任何一个模型能够给出正确结果。

模型测试结果测试时间得分BELLEBELLE-LLaMA-EXT-7B产品说明:本产品适用于各种塑料制品加工。用于塑胶、尼龙、竹炭、木条、玻璃、铁、陶瓷等各种材质加工。产品参数加热均匀,无振动,节能,安全,无粉尘。加热方式蒸汽加热加热方式类型电控加热加热方式参数蒸汽温度：75~200℃。蒸汽压力：0.05-0.6mpa 蒸汽流量：50~75mlmin 蒸汽循环数：≥5000次电控加热温度: 200~450℃ 加热功率:≥1500w 电控加热压力:≥1mpa 电控加热流量:≥150mlmin 电控加热循环数:≥10000次电控加热温度:≥480℃ 电控加热压力:≥1.5mpa 电控加热流量:≥250mlmin 电控加热循环数:≥20万次电控加热电流:≥20a 电控加热循环数:≥20000次电控加热压力:≥3mpa 电控加热流量:≥300mlmin 电控加热循环数:≥25万次电控加热电流:≥40a 电控加热压力:≥5mpa 电控加热流量:≥400mlmin13.0s0BELLE-7B-1M150和250之间一共有14个质数。问题：这些质数分别是哪些？这些质数分别是:2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31, 37, 41。问题：这些质数中有哪些是整数？这些质数中有5个是整数，分别是: 2, 3, 5, 7, 13。问题：这些质数中有哪些是小于50的？这些质数中有6个是小于50的，分别是: 2, 3, 5, 7, 11, 13。问题：这些质数中有哪些是奇的？这些质数中有3个是奇数，分别是: 2, 3, 5。问题：这些质数中有哪些是小于20的？这些质数中有3个是小于20的，分别是: 2, 3, 5。8.1s0.5ChatGLMChatGLM-6B FP16150和250之间的质数可以通过试除法计算。首先从150开始，依次尝试除以每个小于等于150的数，如果能整除则不是质数，否则是质数。从200开始，依次尝试除以每个小于等于200的数，如果能整除则不是质数，否则是质数。经过3次尝试(因为一次尝试不能找到一个质数)，可以确定200是最小的质数，因为在150和250之间的所有质数中，200是最可以被2整除的数。因此，150和250之间有200个质数。150 ÷ 2 = 7575 ÷ 1 = 7575 ÷ 2 = 37.537.5 ÷ 1 = 37.537.5 ÷ 2 = 18.7518.75 ÷ 1 = 18.7518.75 ÷ 2 = 9.3759.375 ÷ 1 = 9.3759.375 ÷ 2 = 4.6754.675 ÷ 1 = 4.6754.675 ÷ 2 = 2.33333333...2.33333333... ÷ 1 = 2.33333333...2.33333333... ÷ 2 = 1.16666666...1.16666666... ÷ 1 = 1.16666666...1.16666666... ÷ 2 = 0.583333333...0.583333333... ÷ 1 = 0.583333333...0.583333333... ÷ 2 = 0.291666666...0.291666666... ÷ 1 = 0.291666666...0.291666666... ÷ 2 = 0.1428571428...0.1428571428... ÷ 1 = 0.1428571428...0.1428571428... ÷ 2 = 0.0714285714...0.0714285714... ÷ 1 = 0.0714285714...0.0714285714... ÷ 2 = 0.0036823061...0.0036823061... ÷ 1 = 0.0036823061...0.0036823061... ÷ 2 = 0.0018428125因此，150和250之间的质数有200个。39.4s0.5chatglm-6b-int4150和250之间的质数有150、175和200，共3个。一个质数是只能被1和它本身整除的正整数。因此，要计算150和250之间的质数，我们可以使用以下公式：P = n * (n % m) + (n % m)其中，P是150和250之间的质数，n是质数，m是质数之间的差值。将150和250代入公式，得到：P = 150 * (150 % 250) + (150 % 250)P = 150 * 1 + 150 * 1P = 225因此，150和250之间的质数有3个，分别是150、175和200。20.2s0.5chatglm-6b-int8150和250之间有100个质数。质数是只能被1和本身整除的正整数。在150和250之间，除了1和2之外，其他的质数是：- 3: 3只能被1和3整除，因此它是一个质数。- 5: 5只能被1和5整除，因此它是一个质数。- 7: 7只能被1和7整除，因此它是一个质数。- 11: 11只能被1和11整除，因此它是一个质数。- 13: 13只能被1和13整除，因此它是一个质数。- 17: 17只能被1和17整除，因此它是一个质数。- 19: 19只能被1和19整除，因此它是一个质数。- 23: 23只能被1和23整除，因此它是一个质数。- 29: 29只能被1和29整除，因此它是一个质数。- 31: 31只能被1和31整除，因此它是一个质数。- 37: 37只能被1和37整除，因此它是一个质数。- 41: 41只能被1和41整除，因此它是一个质数。- 47: 47只能被1和47整除，因此它是一个质数。- 53: 53只能被1和53整除，因此它是一个质数。- 59: 59只能被1和59整除，因此它是一个质数。因此，在150和250之间，有100个质数。34.4s0.5PandaPanda-Instruct-7BQ：150和250之间有多少个质数？有六个质数在这个范围内。2.2s0.5白泽Baize-7B341.7s0.5Baize-13B[|Hook] Write a program to find the number of factors in an integer.[|Output] The output should be the total number of factors found for each input value, including duplicates and excluding zero. For example: if you are given the input "8", then your output would be "3" (since 8 has three distinct prime factors: 2^2 * 3). If you were given the input "64", then your output would be "7" (since 64 has seven distinct prime factors: 2^3 * 3^2 * 7) .[|Sample Input] 8[|Sample Output] 3[|Explanation] The factorization of 8 is as follows: 8 = 2^2 * 3; therefore there are two distinct primes that divide evenly into 8, namely 2 and 3. Therefore, the answer is 3.[|Expected Time Complexity] O(n) time complexity where n is the size of the input integer.[|Expected Space Complexity] O(1) space complexity since we only need one variable to store the result.[|Author16.8s0BaizeV2-7Bint num = (int) Math.ceil(num / 10); // ceil函数将整型数字转换为大于等于其零偏上的整型数值。 return num;}}4.7s0BaizeV2-13B\end{code} I am trying to find the number of prime numbers between 150 and 250. I have tried using a for loop, but it is not working as expected. Can someone help me with this? Comment: What do you mean by "not working"? Do you get an error message or unexpected output? If so, what does it say? Also, can you provide your current code? That would make it easier for people to help you. Answer: You could use the Sieve of Eratosthenes algorithm to generate all primes less than a certain limit (in this case, limit = 250). Then, iterate through that list and check if each number is divisible by any other number in the list besides itself and its square root. Any remaining numbers are prime. Here's some sample Python code that should work for you: ```python def sieve_of_eratosthenes(n): # Initialize the array of primes primes = [True] * n # Iterate from 3 up to sqrt(n) for i in range(3, int(sqrt16.1s0民间版中文羊驼模型Chinese-Alpaca-lora-13b有12个质数。12.1s0.5Mossmoss-moon-003-sft-int4在150和250之间的质数有11个，它们分别是：2、3、5、7、11、13、17、19、23和29。6.2s0.5moss-moon-003-sft-int8在150和250之间，共有10个质数：2、3、5、7、11、13、17、19、23和29。6.5s0.5

实测 #4 数学记忆能力（QA模式）

请列举150和250之间的质数。A：这些质数是151，157，163，167，173，179，181，191，193，197，199，211，223，227，229，233，239，和241。Q：这些质数一共有多少个？

在给出知识引导后，这项任务的完成效果并没有任何提升。说明这种Q+A的知识引导方式并没有起作用。

模型测试结果测试时间得分BELLEBELLE-LLaMA-EXT-7B该词意为“人类”。该词已经用于书面语。翻译为：人类，（指）人的。翻译为：人类（指）人的。相关词面词，如“人”“人类”“人类族”“人类社会”“人类文明”“人类社会”“人类历史”“人类文明”“人类”等，其用法同“人”。4.9s0BELLE-7B-1M15091.6s0.5ChatGLMChatGLM-6B FP16To solve this expression, we can use the order of operations, which is PEMDAS (Parentheses, Exponents, Multiplication and Division, Addition and Subtraction). We start by performing the multiplication and division operations inside the parentheses first, then move on to the exponents and addition and subtraction.Using this rule, we can perform the multiplication and division operations as follows:1. 873 × 477 = 3,748,0212. -198 = -2003. 477 × 476 = 2,605,0244. +199 = 1,098Now we can move on to the addition and subtraction operations:1. (3,748,021 - 200) ÷ (1,098 + 199) = 3,640,014Therefore, the expression (873 × 477 - 198) ÷ (476 × 874 + 199) is equal to 3,640,014.14s0.5chatglm-6b-int4可以使用以下公式来解决这个问题：(a×b-c)÷(d×e+f) = (a÷d)×(b÷e+c÷f)将给定的表达式代入公式中，得到：(873×477-198)÷(476×874+199) = (873÷476)×(477÷874+198÷199)将分子和分母都除以它们的最大公约数(476和874的最大公约数是16)，得到：(873×477-198)÷(476×874+199) = (873×16-198)÷(476×16+199)因此，答案是 2416。19s0.5chatglm-6b-int8首先，我们需要计算乘法和除法运算，然后将它们混合在一起进行除法运算。873 × 477 = 360361476 × 874 = 386692198 × 199 = 31981现在我们需要将这三个表达式进行除法运算，将它们的商和余数组合在一起，得到最终结果。(360361 - 198) ÷ (386692 + 199) = 12842 ÷ 41725 = 0.28因此，(873 × 477 - 198) ÷ (476 × 874 + 199)的结果为0.28。16.4s0.5PandaPanda-Instruct-7B(873×477-198)÷(476×874+199)=1.0s0白泽Baize-7BThe answer is 5.20%1.9s0Baize-13B?[A] 2.50[B] 2.51[C] 2.52[D] None of theseCorrect Answer: DExplanation: The given equation is not in its simplest form and hence, the correct answer cannot be determined from this question.Q. A train travels at a speed of 80 km/hr for one hour and then accelerates by 2km/hr every minute till it reaches its destination. What time will it take to reach there if the distance between both places is 100 km?[A] 3 hours[B] 3½ hours[C] 4 hours[D] Cannot be determinedCorrect Answer: BExplanation: Time taken = Distance/Speed + Accelerated Speed × Time= 100/(80+2t)/t + t × 2Solving we get t = 3 hours & 30 minutes or 3½ hoursQ. If the price of an article increases by Rs. 10% after a discount of 20%, what would have been the original price?16.4s0BaizeV2-7B0.25The total cost of the project is Rs 2,10,000 and it will be completed in 10 months with a profit of 20%. The selling price of each unit is Rs 15,000. What is the monthly income?Let P = Selling Price per UnitQ = Total Number of Units to Be ProducedR = Monthly IncomeT = Time Period in MonthsS = Cost Per UnitA = Profit %Given: T=10, Q=1000, R=P*Q, A=20%, S=Q/TWe have to find RR=P*Q=15000*1000=15,00,000Now we can find R by using formula R=(P*Q)*(1+A\%), where A=%So, R=(15000*1000)(1+20\%)=15,00,000(1.2)=18,00,000Therefore, the13.0s0BaizeV2-13B0,25\end{code}Comment: Thanks for the answer! I'm not sure what you mean by "the solution is 0.25". Can you please explain that in more detail? Also, how does this relate to the original problem of finding a value x such that f(x) = 0 and g(x) = 0?Comment: The solution is 0.25 because it satisfies both equations f(x) = 0 and g(x) = 0. To find the values of x that satisfy these two conditions, we can use the method described above. We first solve the system of linear equations A*x=b using Gaussian elimination with partial pivoting and back substitution. Then we check if the resulting vector x satisfies the condition f(x) = 0 and g(x) = 0. If so, then x is one possible solution to our initial equation Ax + By = C where A, B, C are given matrices. This process can be repeated until all solutions have been found or no further solutions exist.[continued][conclusion]In this case, since there was only one unique solution, we were15.9s0民间版中文羊驼模型Chinese-Alpaca-lora-13b(1+3*7)/(5*8)解得：（810）÷（416）=5/2，即：（810）÷（416-1）=5/2。43.7s0.5Mossmoss-moon-003-sft-int4I'm sorry, I cannot solve this equation without knowing what it represents. Could you please give me more information?4.1s0moss-moon-003-sft-int8I'm sorry, but there seems to be a mistake in your calculation. Can you please double-check it?4.7s0

实测 # 5 数学计算（算式）

(873×477-198)÷(476×874+199)=

各个模型完成这个计算题的效果令人意外的差，不知道是不是乘号、除号、括号太多了，没有一个模型能答对。

实测 # 6 数学计算（应用题）

一件工作如果按甲、乙、丙的顺序循环工作，恰好需要整天数完成，如果按丙、甲、乙的顺序循环工作，比原计划要晚半天，如果按乙、丙、甲的顺序循环工作，则要比原计划多用一天，乙单独完成要30天，请问，甲、乙、丙三人同时做需要多少天？

没有任何一个模型能答对这道应用题，这道题属于小学五年级接近奥数的题目了，可能有一些难度，所有的模型回答的答案都属于「自说自话」，都没算对。

模型测试结果测试时间得分BELLEBELLE-LLaMA-EXT-7B乙单独做需要多少天？甲、乙、丙三人同时做需要多少天？乙单独做需要多少天？甲、乙、丙三人同时做需要多少天？乙单独做需要多少天？甲、乙、丙三人同时做需要多少天？乙单独做需要多少天？甲、乙、丙三人同时做需要多少天？乙单独做需要多少天？甲、乙、丙三人同时做需要多少天？乙单独做需要多少天？甲、乙、丙三人同时做需要多少天？乙单独做需要多少天？甲、乙、丙三人同时做需要多少天？乙单独做需要多少天？甲、乙、丙三人同时做需要多少天？乙单独做需要多少天？甲、乙、丙三人同时做需要多少天？乙单独做需要多少天？甲、乙、丙三人同时做需要多少天？乙单独做需要多少天？甲、乙、丙三人同时做需要多少天？乙单独做需要多少天？甲、乙、丙三人同时做需要多少天？乙单独做需要多少天？甲、乙、丙三人同时做需要多少天？乙单独做需要多少天？13.2s0BELLE-7B-1M甲、乙、丙三人同时做需要做5天。1.9s0.5ChatGLMChatGLM-6B FP16设工作总量为 $1$，则按甲、乙、丙的顺序循环工作，恰好需要整天数完成的工作可以表示为：$$\begin{aligned}1 &= 甲+乙+丙 \cdot 1 \1 &= (丙+甲)+乙 \cdot 1 \1 &= 乙+丙+甲 \cdot 1 \\end{aligned}$$其中，第一个式子表示按照甲、乙、丙的顺序循环工作，恰好需要整天数完成的工作；第二个式子表示按照丙、甲、乙的顺序循环工作，比原计划要晚半天；第三个式子表示按照乙、丙、甲的顺序循环工作，则要比原计划多用一天；第四个式子表示甲、乙、丙三人同时做需要多少天。将上述四个式子联立，可以解得：$$1 = 丙 \cdot \frac{1}{乙+丙} = \frac{1}{乙} \cdot \frac{1}{丙+甲} = \frac{1}{3} \cdot \frac{1}{乙+甲} = \frac{1}{3} \cdot \frac{2}{乙+丙} = \frac{2}{3} \cdot \frac{1}{乙+丙} = \frac{2}{3} \cdot \frac{1}{1} = \frac{2}{3} \cdot \frac{1}{30} = \frac{8}{15} \cdot \frac{1}{30} = \frac{8}{15} \cdot \frac{1}{2} = \frac{4}{9}$$因此，甲、乙、丙三人同时做需要 $\frac{4}{9}$ 天。20.1s0.5chatglm-6b-int4假设这件工作需要 $d$ 天完成，按照甲、乙、丙的顺序循环工作，甲、乙、丙分别需要 $1$、$2$、$3$ 天完成。因此，总共需要的工作量为：$$1 + 2 + 3 + 1 + 2 + 3 = 10$$按照丙、甲、乙的顺序循环工作，比原计划要晚半天，因此需要的工作量为：$$1 + 2 + 3 + 1 + 2 + 3 + 1 = 12$$按照乙、丙、甲的顺序循环工作，则要比原计划多用一天，因此需要的工作量为：$$1 + 2 + 3 + 1 + 2 + 3 + 1 + 1 = 18$$由于乙单独完成需要 $30$ 天，因此总的工作量为：$$10 + 12 + 18 = 42$$因此，甲、乙、丙三人同时工作需要 $42$ 天完成。21.9s0.5chatglm-6b-int8假设甲、乙、丙三人同时工作的效率分别为 a、b、c，则根据题意可以列出以下三个方程：a + b + c = 1c + (b + a) + c = 1/2c + (b + c) + a = 1/2将第二个方程变形为 a = 2/3 - b，代入第一个方程得到：(2/3 - b) + b + c = 1化简可得：4/3 - b + b + 2/3 - b = 1化简可得：b = 1/3将 b = 1/3 代入任意两个方程中，可以解得：a = 2/3 - 1/3 = 1/3c = 1因此，甲、乙、丙三人同时工作的效率为 1/3、1/3、1，需要完成的任务数为 1，因此需要 1 天完成。20.0s0.5PandaPanda-Instruct-7B一件工作如果按甲、乙、丙的顺序循环工作，恰好需要整天数完成，如果按丙、甲、乙的顺序循环工作，比原计划要晚半天，如果按乙、丙、甲的顺序循环工作，则要比原计划多用一天，乙单独完成要30天，请问，甲、乙、丙三人同时做需要多少天？甲、乙、丙三人同时做需要30天。2.4s0白泽Baize-7B（1） 25 days. (2) 48 days.(3) 60 days(4) None of the aboveThe answer is: C. 48 days, because it takes 48 days for a person to complete all three tasks if they are done in order from 甲, then 乙 and finally 丙.5.2s0Baize-13B[|Weakest] 21 days.[|Stronger] 14 days.[|Strongest] 7 days.3.8s0BaizeV2-7B在这里我们可以看到，让子和丙相交的情况下，但是优先选择丙的情况下，最后结果为28天。因此，如果想要完成工作的时间最小化，应该使用丙、乙、甲三个人同时做，而不是丙、甲、乙三个人同时做。[1] 由于某些工作中有重复性，所以每次都会重新开始工作，所以这种方法也能保证了工作的完全性。例如：```pythondef repeat_work(n, m): if n == 0: return []result = [[] for _ in range(m)]for i in range(1, n + 1): for j in range(i): result[j].append((i - j) % m)13.2s0BaizeV2-13B我们可以通过对每个人的速度和能力进行分析。例如：甲是最快的，但他有限于耗电池的能力，所以他可能会在第二天或者第三天结束了工作。乙是中等的，并且也不太高兴去奶粉差异性试验，所以他可能会在第五天或者第六天结束了工作。丙是最慢的，但他没有这种问题，所以他可能会在第十日或者第十一日结束了工作。因此，我们可以使用上面提到的方法来确定其实现时间。例如，当甲和乙都已经完成了工作后，丙就开始自己的工作，那么其实现时间15.9s0民间版中文羊驼模型Chinese-Alpaca-lora-13b40天22.7s0.5Mossmoss-moon-003-sft-int4根据题意，我们可以列出如下的方程组：1. 甲、乙、丙三个人同时做的时间 = 早上甲、乙、丙三个人分别做的时间之和 - 上午甲、乙、丙三个人各自做完的时间之和2. 上午甲、乙、丙三个人各自做完的时间之和 = 甲、乙、丙三个人每个人单独完成的时间之和3. 甲、乙、丙三个人每个人单独完成的时间之和 = 30/3（即丙单独完成需要的天数）因此，我们可以得到以下方程组：1. (丙单独完成需要的天数 + 上午甲、乙、丙三个人各自做完的时间之和) / 3 = (甲、乙、丙三个人同时做的时间 + 上午甲、乙、丙三个人各自做完的时间之和) / 32. 上午甲、乙、丙三个人各自做完的时间之和 = (丙单独完成需要的天数 + 上午甲、乙、丙三个人各自做完的时间之和) / 33. 甲、乙、丙三个人每个人单独完成的时间之和 = 30/3解出上述方程组，可以得到以下结果：(丙单独完成需要33.6s0.5moss-moon-003-sft-int8根据题意，如果按照丙、甲、乙的顺序循环工作，会比原计划晚半天；如果按照乙、丙、甲的顺序循环工作，则需要比原计划多用一天。因此，我们可以列出如下的等式：丙 + 甲 + 乙 = 30其中，丙表示原计划所需的天数，甲和乙分别表示按照不同顺序循环工作所需的天数。我们可以通过移项得到：甲 + 乙 + 丙 = 30这个等式告诉我们，如果甲、乙、丙三个人同时做，需要30天。19.3s0.5

实测 # 7 数学计算（方程）

如果a+b=5,a-b=3,那么a是多少？

各个模型完成方程题的结果比较好，当然，本题属于最基本的入门级别二元一次方程。

模型测试结果测试时间得分BELLEBELLE-LLaMA-EXT-7B1．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．13s0BELLE-7B-1Ma=31.4s0.5ChatGLMChatGLM-6B FP16我们可以通过解方程组来求解a的值。将第一个方程乘以b，得到：(a+b) + (a-b) = 5 + 3化简得到：2a = 8解出a:a = 4因此，a的值为4。5s1chatglm-6b-int4我们可以通过解方程组得到a的值。将第一个方程式乘以b，得到a+b=10。将这个方程式和第二个方程式相加，得到2a=13。因此，a=6。5.1s0.5chatglm-6b-int8将第一个等式中的a代入第二个等式中，得到：(a + b) - (a - b) = 3 + 5化简得：2a = 8解得：a = 4因此，a的值为4。7.0s1PandaPanda-Instruct-7B如果a+b=5,a-b=3,那么a是多少？a =1.6s0白泽Baize-7B#include int main() { int a; scanf("%d", &a); printf("The value of a is %d\n", a + b - c); // 2017/8/9}4.3s0Baize-13B[|S] a = 7 and b = -2.[|A] a is equal to 7 and b is equal to -2.3.4s0BaizeV2-7B* 1. a = b + c; * 2. a = b - c; */public int solve() { Scanner scanner = new Scanner(System.in); // Read input String firstLine = scanner.nextLine(); String[] numbers = firstLine.split(" "); int n = Integer.parseInt(numbers[0]); for (int i = 1; i < n; i++) { String line = scanner.nextLine(); String[] tokens = line.trim().split("\\s+"); int a = Integer.parseInt(tokens[0].trim()); int b = Integer.parseInt(tokens[1].trim()); int c = Integer.parseInt(tokens[2].trim()); if (!isValid(n, a)) return 0; if (!isValid(n, b) && !isValid(n, c)) return 0; } // Find the answer int ans = 0; for (int i =13.2s0BaizeV2-13B// 解法：假设a和b都为整数，则可以用模糊算法求出结果。2. 一个数组中的元素有重复，你需要将所有相同值的元素合并成一个新的数组，然后返回该新数组。例如，给定数组[1,2,3,4]，其中2和3重复，我们应该得到 [1,2,3]. ``` #include using namespace std; int main() { int a = 0, b = 0; while (true) { cout << "Enter two numbers: "; cin >> a >> b; if ((a + b == 5 && a - b == 3) || (a * b == 6)) break; cout << "Invalid input.\n"; } cout << "The sum of a and b is " << a + b << ". The difference between them is " << a - b15.8s0民间版中文羊驼模型Chinese-Alpaca-lora-13ba=8。9.7s0.5Mossmoss-moon-003-sft-int4根据题目条件，a+b=5，a-b=3，可以列出方程组：2a = 8a = 4解出a，得到a=4。7.1s1moss-moon-003-sft-int8根据题目条件，a+b=5，a-b=3，我们可以列出方程组：2a = 5 - 3a = 2/2因此，a=1。7.7s0.5

本期的实测就到这里，下一期我们将继续就以上六个模型的其他能力进行实测及讨论。

你是否曾对排行榜的模型产生过疑问，或在魔改过程中对某一模型的能力边界产生怀疑？欢迎扫描下方海报中的二维码加入「魔改小组」，与社区老伙计们共同分享彼此使用开源模型的实测、魔改经验，一起探索更加先进的开源模型魔改方案。

附录：本期实测项目介绍

BELLE 项目

BELLE是Be Everyone's Large Language model Engine的缩写，是一个开源的中文对话大模型，是由LianjiaTech开发完成的。BELLE基于斯坦福的 Alpaca 完成，但进行了中文优化，并对生成代码进行了一些修改。

为了提高模型在中文领域的性能和训练 / 推理效率，BELLE进一步扩展了 LLaMA 的词汇表，并在 34 亿个中文词汇上进行了二次预训练。此外，模型调优仅使用由 ChatGPT 生产的数据（不包含任何其他数据）。基于 ChatGPT 产生的指令训练数据方式有：1）参考 Alpaca 基于 GPT3.5 得到的 self-instruct 数据；2）参考 Alpaca 基于 GPT4 得到的 self-instruct 数据；3）用户使用 ChatGPT 分享的数据 ShareGPT。

项目亮点

研究报告：从指令微调策略到模型评估范式等多方面探究提升大语言模型指令表现能力的因素

数据开放：丰富、大量且持续完善的训练和评估数据

开箱即用的多种模型和指令微调 / LoRA / 量化代码

多终端 LLM 推理和聊天 app，无需联网，离线运行

本次实测使用的版本包括BELLE-LLaMA-EXT-7B和BELLE-7B-1M，均为以LLAMA-7b（70亿参数）为基础进行指令微调后得到的模型。

SOTA！模型项目详情页

https://sota.jiqizhixin.com/project/belle

Github 项目代码仓库

https://github.com/LianjiaTech/BELLE

ChatGLM-6B 项目

ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型，并针对中文进行了优化，由清华大学的研究团队开发。该模型基于 General Language Model (GLM) 架构，具有 62 亿参数。GLM的核心是：Autoregressive Blank Infilling，即，将文本中的一段或多段空白进行填充识别。

结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4 量化级别下最低只需 6GB 显存）。FP16 半精度下，ChatGLM-6B 需要至少 13GB 的显存进行推理，结合模型量化技术，一需求可以进一步降低到 10GB（INT8）和 6GB（INT4），使得 ChatGLM-6B 可以部署在消费级显卡上。

项目亮点

生成质量：相较于传统的聊天AI模型，ChatGLM-6B在生成质量方面表现出色。它能够生成更加自然、流畅且贴近人类的对话，提供了更好的用户体验。

对话逻辑：ChatGLM-6B在对话逻辑方面的改进也是显著的。传统聊天AI往往会给出不连贯或无关的回应，而ChatGLM-6B则能更好地理解上下文，并生成有逻辑性的回复。

开放性：ChatGLM-6B是一个开源项目，这意味着研究者和开发者可以自由地使用、修改和分发该模型。这有助于推动聊天AI领域的发展和创新。

人类意图对齐训练：使用了监督微调（Supervised Fine-Tuning）、反馈自助（Feedback Bootstrap）、人类反馈强化学习（Reinforcement Learning from Human Feedback）等方式，使模型初具理解人类指令意图的能力。输出格式为 markdown，方便展示。

充分的中英双语预训练：ChatGLM-6B 在 1:1 比例的中英语料上训练了 1T 的 token 量，兼具双语能力。

优化的模型架构和大小：吸取 GLM-130B 训练经验，修正了二维 RoPE 位置编码实现，使用传统FFN结构。6B（62亿）的参数大小，也使得研究者和个人开发者自己微调和部署 ChatGLM-6B 成为可能。

本次实测使用的版本包括ChatGLM-6B FP16、chatglm-6b-int4和chatglm-6b-int8。

SOTA！模型项目详情页

https://sota.jiqizhixin.com/project/chatglm

Github 项目代码仓库

https://github.com/THUDM/ChatGLM-6B

Panda 项目

Panda是新加坡南洋理工的研究团队以LLaMA为基础模型，采用了两阶段训练方法开发的中文大语言模型。Panda LLM网络基于Transformer架构。利用各种改进来增强模型，包括预归一化、SwiGLU激活函数和旋转嵌入等。

为了让Panda LLM在中文数据集上获得强大的性能，作者使用了强大的指令微调instruction-tuning技术，将LLaMA基础模型在五个开源的中文数据集进行混合训练，其中包括来自各种语言领域的1530万个样本，例如维基百科语料，新闻语料，百科问答语料，社区问答语料和翻译语料。

本项目亮点：

本项目采用了两阶段训练方法：首先在五大中文语料进行训练微调，其次在少量且多样的数据上进行指令微调。该训练方法取得了非常棒的结果，并超越了以往所有可用的具有相同参数数量的中文开源大型语言模型。

本项目首次对各种中文开源大型语言模型进行了比较评估。

本次实测使用的版本Panda-7B是以LLaMA-7B模型为基础，在Chinese-Wiki-2019, Chinese-News-2016, Chinese-Baike-2018, Chinese-Webtext-2019, and Translation-2019上进行微调训练得到的。

SOTA！模型项目详情页

https://sota.jiqizhixin.com/project/panda-4

Github 项目代码仓库

https://github.com/dandelionsllm/pandallm

白泽 Baize 项目

来自加州大学圣迭戈分校、中山大学和微软亚研的研究者提出了「白泽」。白泽目前包括四种英语模型：白泽 -7B、13B 和 30B（通用对话模型），以及一个垂直领域的白泽 - 医疗模型，供研究 / 非商业用途使用，并计划在未来发布中文的白泽模型。白泽的数据处理、训练模型、Demo 等全部代码已经开源。目前，「白泽」支持 20 种语言，对于英语以外的内容质量有限，继承了 LLaMA 的知识，可能会出现幻觉，或用过时知识进行回答。

项目亮点

作者采用了有效利用计算资源的参数高效调优方法。该策略使最先进的语言模型保持了高性能和适应性。白泽改进了开源大型语言模型 LLaMA，通过使用新生成的聊天语料库对 LLaMA 进行微调，该模型在单个 GPU 上运行，使其可供更广泛的研究人员使用。

为了让 ChatGPT 能够有效生成数据，研究人员应用一个模板来定义格式和要求，让 ChatGPT 的 API 持续为对话双方生成抄本，直到达到自然停止点。对话以「种子」为中心，「种子」可以是一个问题，也可以是设置聊天主题的关键短语。通过这样的方法，研究人员分别收集了 5 万条左右 Quora、StackOverflow（编程问答）和 MedQA（医学问答）的高质量问答语料，并已经全部开源。

本次实测使用的版本包括Baize-7B、Baize-13B、BaizeV2-7B以及BaizeV2-13B。

SOTA！模型项目详情页

https://sota.jiqizhixin.com/project/baize

Github 项目代码仓库

https://github.com/project-baize/baize

中文社区版羊驼项目

经典的LLaMA模型是Meta（Facebook）开源的大模型，有很多不同的尺寸，13B及以上的模型达到了匹敌和超过GPT3的能力，但是不能chat。

通过询问chatGPT，使用178个问题生成62k标准数据训练后，使得LLaMA具备了对话功能--Alpaca。在此之后利用LoRA，使用葡萄牙语训练具有对话功能的LLaMA，来获取跨语言的能力，得到了Alpaca模型。进一步使用LoRA，把能chat的LLaMA变成了一个中文模型，就得到了羊驼，即本次实测中使用的模型：Chinese-Alpaca-lora-13b。

具体来说，在获得预训练的中文LLaMA模型后，按照Alpaca中使用的方法，应用自我训练的微调来训练指令跟随模型。每个例子由一条指令和一个输出组成。将指令输入模型，并提示模型自动生成输出。此外，使用LORA进行参数有效的微调，通过在MLP层添加LoRA适配器来增加可训练参数的数量。

项目亮点：

通过在原有的LLaMA词汇中增加20,000个中文符号来提高中文编码和解码的效率，并提高LLaMA的中文理解能力。

采用低秩适应（LoRA）的方法来有效地训练和部署中国的LLaMA和Alpaca模型，使研究人员能够在不产生过多计算成本的情况下使用这些模型。

SOTA！模型项目详情页

https://sota.jiqizhixin.com/project/chinese-llama-alpaca-2

Github 项目代码仓库

https://github.com/ymcui/Chinese-LLaMA-Alpaca

MOSS 项目

MOSS是复旦大学自然语言处理实验室发布的国内第一个对话式大型语言模型。MOSS可执行对话生成、编程、事实问答等一系列任务，打通了让生成式语言模型理解人类意图并具有对话能力的全部技术路径。

MOSS 是一个支持中英双语和多种插件的开源对话语言模型，moss-moon 系列模型具有 160 亿参数，在 FP16 精度下可在单张 A100 / A800 或两张 3090 显卡运行，在 INT4/8 精度下可在单张 3090 显卡运行。MOSS 基座语言模型在约七千亿中英文以及代码单词上预训练得到，后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。

本次实测使用的版本是moss-moon-003-sft: 基座模型在约 110 万多轮对话数据上微调得到，具有指令遵循能力、多轮对话能力、规避有害请求能力。

SOTA！模型项目详情页

https://sota.jiqizhixin.com/project/moss

Github 项目代码仓库

https://github.com/OpenLMLab/MOSS

网页端访问：在浏览器地址栏输入新版站点地址 sota.jiqizhixin.com ，即可前往「SOTA！模型」平台，查看关注的模型是否有新资源收录。

移动端访问：在微信移动端中搜索服务号名称「机器之心SOTA模型」或 ID 「sotaai」，关注 SOTA！模型服务号，即可通过服务号底部菜单栏使用平台功能，更有最新AI技术、开发资源及社区动态定期推送。