2021 IDEA大会重磅宣布,“封神榜”大模型开源计划开启

2021-11-23 16:32:30

11月22日,由深圳市福田区人民政府、深圳市福田区科技创新局和粤港澳大湾区数字经济研究院(International Digital Economy Academy, 简称“IDEA”)联合举办的2021 IDEA大会在深圳福田成功召开。大会以“The World Needs a Few Good IDEAs”为主旨,围绕人工智能与数字经济展开讨论。上午10时,IDEA创院理事长、美国国家工程院外籍院士、英国皇家工程院外籍院士沈向洋,在创新展示会环节宣布, IDEA认知计算与自然语言研究中心(简称“IDEA CCNL”)将启动 “封神榜”大模型开源计划。

2021 IDEA大会重磅宣布,“封神榜”大模型开源计划开启

沈向洋宣布“封神榜”大模型开源计划

两年,预训练逐渐成为整个认知智能的基础,自然语言和计算机视觉的算法全方面的依赖于预训练模型来构建。

预训练模型的规模从最初的1亿参数BERT到一千多亿参数的GTP-3,正在以每年10倍的速度增加。针对不同的下游任务,我们需要不同的结构,不同的尺寸和不同的专业领域的预训练模型。

这个世界需要更多更大的模型。但是,有限的算力资源是限制整个领域进一步发展的瓶颈。尤其是高校、小公司和一些传统公司,根本不具备足够的算力来训练和使用大规模预训练模型。这些都阻碍了整个人工智能技术更进一步的落地。

这个世界需要一个答案。

2021 IDEA大会重磅宣布,“封神榜”大模型开源计划开启

“封神榜”大模型系列模型矩阵

会上,沈向洋代表IDEA CNNL正式宣布:开启 “封神榜”大模型开源计划。在这个计划中,IDEA CCNL全方面地开源一系列的自然语言预训练大模型。此系列模型将覆盖不同的模型结构、不同的模型尺寸、不同的专业领域。IDEA CCNL也将对此系列模型做持续的升级,不断融合最新的数据和最新的训练算法,致力于打造中文认知智能的通用基础设施,避免重复建设,为全社会节省算力。

2021 IDEA大会重磅宣布,“封神榜”大模型开源计划开启

本次IDEA宣布开源的“封神榜”大模型家族

同时,IDEA CCNL表示,希望各个公司、高校、机构加入到这个开源计划中,一起共建大模型开源体系。未来,当大家需要一个新的预训练模型,都应该是首先从封神榜中选取一个最适合各自任务的开源大模型,做继续训练,然后再把新的模型开源回这个体系。这样,每个人用最少的算力,就能得到自己的模型,同时这个开源大模型体系也能持续扩大。

二郎神系列

二郎神系列是Encoder结构为主的双向语言模型,专注于解决各种自然语言理解任务。13亿参数的二郎神-1.3B大模型采用280G数据,运用32张A100训练14天,是最大的开源中文Bert大模型。2021年11月10日在中文语言理解权威评测基准FewCLUE 榜单上登顶。其中,CHID(成语填空)、TNEWS(新闻分类)超过人类,CHID(成语填空)、CSLDCP(学科文献分类)、OCNLI(自然语言推理)单任务第一,刷新小样本学记录,详情可参见https://mp.weixin.qq.com/s/bA_9n_TlBE9P-UzCn7mKoA。未来,二郎神系列会持续在模型规模、知识融入、监督任务辅助等方向不断优化。

2021 IDEA大会重磅宣布,“封神榜”大模型开源计划开启

二郎神登顶FewCLUE榜单

领域模型-余元系列

IDEA CCNL负责人张家兴博士也曾表示,“封神榜”大模型开源计划不会止步于此,在学术、医疗、金融、法律等重要领域方向上也会逐步开源领域专属大模型,比如即将在医学领域推出应用的余元系列拥有35亿参数余元-3.5B大模型,采用50G的医疗领域数据和知识,在已有的通用模型基础上,运用256张A100继续训练28小时,该模型参数记录了大量医疗知识,在医疗事实判断上,准确率可以接90%。

周文王系列

周文王系列是IDEA CCNL联合追一科技有限公司的新结构大模型。该模型在训练阶段就统一考虑LM(Language Model)和MLM(Mask Language Model)任务,增加了旋转位置编码技术,让模型同时具备生成和理解的能力。、13亿参数的周文王-1.3B大模型采用280G数据,运用32张A100训练14天,是中文领域同时做LM和MLM任务最大的模型。将来会在模型规模、知识融入、监督任务辅助等方向不断优化。

闻仲系列

闻仲系列是Decoder结构为主的单向语言模型,是一系列强大的生成模型。35亿参数的闻仲-3.5B大模型采用100G数据,运用256张A100训练28小时,具备强大的生成能力。

燃灯系列

燃灯系列是Transformer结构为主的编解码语言模型,把所有NLP任务转化成文本生成任务,7.7亿参数的燃灯-770M大模型采用280G数据,运用16张A100训练14天,能够很好地完成自然语言生成和理解任务。

上述的模型只是“封神榜”大模型开源计划的开始,后续IDEA CCNL将持续的开源更多的模型。同时IDEA表示,希望更多业界伙伴一起加入开源计划,一起推动中文认知智能和自然语言的深入发展和产业落地。

关闭
精彩放送