2021 IDEA大会重磅宣布，“封神榜”大模型开源计划开启

2021-11-23 16:32:30

11月22日，由深圳市福田区人民政府、深圳市福田区科技创新局和粤港澳大湾区数字经济研究院（International Digital Economy Academy, 简称“IDEA”）联合举办的2021 IDEA大会在深圳福田成功召开。大会以“The World Needs a Few Good IDEAs”为主旨，围绕人工智能与数字经济展开讨论。上午10时，IDEA创院理事长、美国国家工程院外籍院士、英国皇家工程院外籍院士沈向洋，在创新展示会环节宣布， IDEA认知计算与自然语言研究中心（简称“IDEA CCNL”）将启动 “封神榜”大模型开源计划。

沈向洋宣布“封神榜”大模型开源计划

最近两年，预训练逐渐成为整个认知智能的基础，自然语言和计算机视觉的算法全方面的依赖于预训练模型来构建。

预训练模型的规模从最初的1亿参数BERT到一千多亿参数的GTP-3，正在以每年10倍的速度增加。针对不同的下游任务，我们需要不同的结构，不同的尺寸和不同的专业领域的预训练模型。

这个世界需要更多更大的模型。但是，有限的算力资源是限制整个领域进一步发展的瓶颈。尤其是高校、小公司和一些传统公司，根本不具备足够的算力来训练和使用大规模预训练模型。这些都阻碍了整个人工智能技术更进一步的落地。

这个世界需要一个答案。

2021 IDEA大会重磅宣布，“封神榜”大模型开源计划开启

“封神榜”大模型系列模型矩阵

会上，沈向洋代表IDEA CNNL正式宣布：开启 “封神榜”大模型开源计划。在这个计划中，IDEA CCNL全方面地开源一系列的自然语言预训练大模型。此系列模型将覆盖不同的模型结构、不同的模型尺寸、不同的专业领域。IDEA CCNL也将对此系列模型做持续的升级，不断融合最新的数据和最新的训练算法，致力于打造中文认知智能的通用基础设施，避免重复建设，为全社会节省算力。

2021 IDEA大会重磅宣布，“封神榜”大模型开源计划开启

本次IDEA宣布开源的“封神榜”大模型家族

同时，IDEA CCNL表示，希望各个公司、高校、机构加入到这个开源计划中，一起共建大模型开源体系。未来，当大家需要一个新的预训练模型，都应该是首先从封神榜中选取一个最适合各自任务的开源大模型，做继续训练，然后再把新的模型开源回这个体系。这样，每个人用最少的算力，就能得到自己的模型，同时这个开源大模型体系也能持续扩大。

二郎神系列

二郎神系列是Encoder结构为主的双向语言模型，专注于解决各种自然语言理解任务。13亿参数的二郎神-1.3B大模型采用280G数据，运用32张A100训练14天，是最大的开源中文Bert大模型。2021年11月10日在中文语言理解权威评测基准FewCLUE 榜单上登顶。其中，CHID(成语填空)、TNEWS(新闻分类)超过人类，CHID(成语填空)、CSLDCP(学科文献分类)、OCNLI(自然语言推理)单任务第一，刷新小样本学习记录，详情可参见https://mp.weixin.qq.com/s/bA_9n_TlBE9P-UzCn7mKoA。未来，二郎神系列会持续在模型规模、知识融入、监督任务辅助等方向不断优化。

2021 IDEA大会重磅宣布，“封神榜”大模型开源计划开启

二郎神登顶FewCLUE榜单

领域模型-余元系列

IDEA CCNL负责人张家兴博士也曾表示，“封神榜”大模型开源计划不会止步于此，在学术、医疗、金融、法律等重要领域方向上也会逐步开源领域专属大模型，比如即将在医学领域推出应用的余元系列拥有35亿参数余元-3.5B大模型，采用50G的医疗领域数据和知识，在已有的通用模型基础上，运用256张A100继续训练28小时，该模型参数记录了大量医疗知识，在医疗事实判断上，准确率可以接近90%。

周文王系列

周文王系列是IDEA CCNL联合追一科技有限公司的新结构大模型。该模型在训练阶段就统一考虑LM（Language Model）和MLM（Mask Language Model）任务，增加了旋转位置编码技术，让模型同时具备生成和理解的能力。、13亿参数的周文王-1.3B大模型采用280G数据，运用32张A100训练14天，是中文领域同时做LM和MLM任务最大的模型。将来会在模型规模、知识融入、监督任务辅助等方向不断优化。

闻仲系列

闻仲系列是Decoder结构为主的单向语言模型，是一系列强大的生成模型。35亿参数的闻仲-3.5B大模型采用100G数据，运用256张A100训练28小时，具备强大的生成能力。

燃灯系列

燃灯系列是Transformer结构为主的编解码语言模型，把所有NLP任务转化成文本生成任务，7.7亿参数的燃灯-770M大模型采用280G数据，运用16张A100训练14天，能够很好地完成自然语言生成和理解任务。

上述的模型只是“封神榜”大模型开源计划的开始，后续IDEA CCNL将持续的开源更多的模型。同时IDEA表示，希望更多业界伙伴一起加入开源计划，一起推动中文认知智能和自然语言的深入发展和产业落地。