直追GPT-4!李开复Yi-34B新成绩公布:94.08%的胜率超越LLaMA2等主流大模型

核心提示仅次于GPT-4,李开复零一万物Yi-34B-Chat最新成绩公布——在Alpaca经认证的模型类别中,以94.08%的胜率,超越LLaMA2Chat70B、C

仅次于GPT-4,李开复零一万物Yi-34B-Chat最新成绩公布——

在Alpaca经认证的模型类别中,以94.08%的胜率,超越LLaMA2Chat70B、Claude2、ChatGPT!

图片

不仅如此,在加州大学伯克利分校主导的LMSYS ORG排行榜中,Yi-34B-Chat也以1102的Elo评分,晋升最新开源SOTA开源模型之列,性能表现追平GPT-3.5。

在五花八门的大模型评测中,伯克利LMSYS ORG排行榜采用了一个最为接近用户体感的 “聊天机器人竞技场” 特殊测评模式,让众多大语言模型在评测平台随机进行一对一 battle,通过众筹真实用户来进行线上实时盲测和匿名投票,11月份经25000的真实用户投票总数计算了20个大模型的总得分。

Elo评分越高,说明模型在真实用户体验上的表现越出色,可说是众多大模型评测集中最能展现 “Moment of Truth 真实关键一刻” 的用户导向体验对决。

图片

LMSYS ORG榜单(发布于2023年12月8日)

中文能力方面,Yi-34B-Chat 微调模型同样不遑多让。SuperCLUE是一项针对中文能力的排行榜,从基础能力、专业能力和中文特性能力三个不同的维度,评估模型的能力。

根据11月底发布的《SuperCLUE中文大模型基准评测报告2023》,11月下旬首度发布的 Yi-34B Chat,迅速晋升到和诸多国产优秀大模型齐平的 “卓越领导者” 象限,在多项基准评测中的 “SuperCLUE 大模型对战胜率” 这项关键指标上,Yi-34B-Chat 取得31.82%的胜率,仅次于GPT4-Turbo。

图片

中文SuperCLUE排行榜(发布于2023年11月28日)

对话场景实测

Yi-34B-Chat 模型实力在不同的对话场景中实力如何?来看几个更直观的问题演示:

例如“喂”给Yi-34B-Chat如下问题:

图片

不难看出,Yi-34B-Chat的回答可以说是有理有据。

再来:

图片

回答可以说是非常符合现在小红书主流的带货风格了。

中文理解方面,我们再出一道题:

图片

可以看到,即便是在非常“绕”的中文理解方面,Yi-34B-Chat也是精准的拿捏住了。

据零一万物介绍,除了 Yi 系列强基座的贡献以外,Yi-34B-Chat 模型的效果还得益于其人工智能对齐(AI Alignment)团队采用了一系列创新对齐策略。通过精心设计的指令微调流程,不仅强化了模型在理解和适应人类需求方面的能力,还使得模型与人类价值观对齐,包括帮助性(Helpful),可靠性(Honest),无害性(Harmless)等。

在强基座设定下,该团队采用了一种轻量化指令微调方案,该方案涵盖了单项能力提升和多项能力融合两个阶段。

其中,单项能力包括通用指令跟随、创意内容生成、数学、推理、编程、泛COT、对话交互等。通过大量的消融实验,针对模型单能力构建和多能力融合总结了独家认知经验。

在数据的量和质方面,一方面,团队在强基座模型上,实现仅需要少量数据(几条到几百条),就能激发模型特定单项能力;另一方面,数据质量比数量重要,少量高质量数据比大量低质量数据更好。通过关注超出模型能力的“低质量”数据,减少了模型“幻觉”。

在指令多样性与难度方面,团队通过在各能力项下构建任务体系,实现了训练数据中的指令均衡分布,大幅提升了模型泛化性。通过复合指令构造和指令难度进化,不仅提升了模型效果,也显著降低了对数据量的需求。

在风格一致性方面,团队发现训练数据的风格会影响模型收敛速度和能力上限的逼近程度,因此统一了回复风格,比如重点设计了CoT的回复风格,实现在轻量SFT情况下,避免了风格不一致加剧模型的“记忆”现象。

在多能力融合阶段,团队采用网格搜索的方法来决定数据配比和超参数的设置,通过基准测试和自建评测集的结果来指导搜索过程,成功实现模型的多能力融合。

不仅如此,Yi模型开源首月,数据也很亮眼。

在Hugging Face社区下载量为16.8万,魔搭社区下载量1.2万。在GitHub 获得超过4900个Stars。

由于性能表现强劲,多家知名公司和机构推出了基于Yi模型基座的微调模型,比如猎豹旗下的猎户星空公司推出的OrionStar-Yi-34B-Chat模型,南方科技大学和粤港澳大湾区数字经济研究院(简称IDEA研究院)认知计算与自然语言研究中心(简称CCNL中心)联合发布的SUS-Chat-34B等,均性能表现优异。而AMD和Hugging Face合作的GPU加速大模型的实验中,也选择了Yi-6B作为范例项目。

知名技术写作者苏洋表示,在他观察的近期Hugging Face榜单中,前三十名有一半多都是 Yi 和其他用户微调的 Yi-34B 的变体模型,原本占据榜单头部的68B 和70B 模型的数量目前只留有几个,“从这点看 Yi 对于开源生态的帮助还是非常巨大的。”

用户真实反馈实录

Yi-34B开源发布后,开发者Eric Hartford就发现了模型存在的一个小问题。

他在邮件中写道:

零一万物意识到命名问题的疏忽对开发者造成的不便,跟Eric和其他开发者提出说明,表达诚挚的歉意,并很快便在各开源平台重新提交模型及代码,完成了开源社区的版本更新。

然而Eric自己也没有预想到,他的这个建议,在国内竟被曲解、误读,引发了舆论关于Yi模型“抄袭”LLaMA的质疑。

事实上,一个模型核心技术护城河是在架构之上,通过数据训练获得的参数和代码,在沿用了开源社区普遍使用的LLaMA 架构之上。

根据零一万物团队的说法,他们是从零开始,用高质量的数据集、自研训练科学和AI Infra打造了 Yi-34B 在内的系列模型。为了执行对比实验的需要,对部分推理参数进行了重新命名。原始出发点是为了充分测试模型,而非刻意隐瞒来源。

身处这场舆论风暴的中心,Eric也在X(twitter)上写道:

图片

紧接着,他又说,“使用Llama架构没有任何问题。训练才是关键。Yi给了我们目前可获得的最佳模型,没有任何可抱怨的。”

现在,Eric已经成为Yi-34B的忠实拥趸,会使用Yi-34b-200k数据集训练其他的模型产品,并感叹丝滑般的训练体验。

数字化创业者,开发者,技术写作者苏洋表示:

图片

参考链接:

[1]https://huggingface.co/01-ai/

[2]https://www.modelscope.cn/organization/01ai