阿里巴巴|北大95后“AI萝莉”回来了:现在达摩院开源7大NLP模型

曾有一位北大硕士生,在校期间一次性在国际顶会ACL中标8篇论文,其中2篇一作,还登上了知乎热搜 。
在那次热搜之后,这位“论文大户”似乎逐渐销声匿迹 。
今天,她带着阿里达摩院深度语言模型体系AliceMind回来了 。
这位被外界称为“AI萝莉”的罗福莉,就负责这次AliceMind中7个模型的开源 。
阿里巴巴|北大95后“AI萝莉”回来了:现在达摩院开源7大NLP模型
文章图片
她的经历说起来有点“传奇” 。
上大学之前没怎么接触过电脑,却误打误撞进了北师大计算机专业 。
刚入学时因没有基础成绩垫底,靠着努力跃升到前一、二名 。
大三时进入北大语言计算实验室实习,选择了NLP作为自己的科研方向,在3个月内自学Python并投出一篇顶会论文(非一作) 。
保研进入北大,硕士两年间在国际顶会上发表了超过20篇论文 。
但她出人意料地没有选择继续读博,而是在2020年毕业之后就加入了阿里达摩院,想做点实在的研究 。
进入工业界这两年,她发的论文明显减少了 。
在读书的时候,周围的评价机制都是非常在意你的论文数量 。但是到工业界,我现在已经不追求数量了,主要是追求做这个工作是不是真的有落地价值,是不是在这个领域有一些影响力 。
她在达摩院主导开发了跨语言预训练模型VECO,成为AliceMind八大模型之一 。这次AliceMind集体开源,她挑起了大梁 。
简单的才是最赞的
罗福莉在业界工作这一年,与在学术界时相比心态上有了很大的转变:
在学校的时候总是追求提出一个很复杂的模型,大家看不懂,论文评审人也看不懂,但是到工业界的时候就会发现一眼就能看懂并且还有效的模型才是最赞的 。
这也是她所在的达摩院深度语言模型团队的思路,他们打造的AliceMind八大模型先后登顶了GLUE、CLUE、XTREME、VQA Challenge、DocVQA、MS MARCO六大NLP权威榜单 。
AliceMind中Alice的含义其实很简单,就是Alibaba’s Collection of Encoder-decoders 。
其中的模型也像这个名字一样朴实,都是从实际业务需要出发,在Encoder-decoder的基础上进行创新和改进 。
通用语言模型StructBERT,在BERT的基础上增加了词级别和句级别的两个新目标函数,相当于让AI掌握了“汉字序顺不响影读阅”这个能力 。
这是因为团队在阿里的业务中发现,用户在电商、娱乐产品等轻松的使用场景时,经常出现语法、语序不正确等现象 。
这就需要让语言模型在面对语序错乱、语法不规范的词句时,仍能准确理解并给出正确的表达和回应 。
AliceMind刚刚还再次登顶了多模态权威榜单VQA Challenge 2021 。
VQA Challenge的比赛任务类似看图问答,给定一张图像和关于图像的自然语言问题,AI需要提供准确的自然语言答案 。
对此,AliceMind的多模态模型StructVBERT,在通用模型StructBERT的基础上,同时引入文本和图像模态 。
利用更高效的视觉特征和创新的交叉注意力机制,在统一的多模态语义空间进行联合建模 。
除了跨模态,罗福莉主导的跨语言模型VECO也被顶会ACL2021录用 。
VECO中也引入了交叉注意力机制,改变了以往跨语言信息在隐藏层中自动建模的不稳定性,而是“显式”地完成 。
VECO的另一项创新是在预训练的过程中,充分学习用于语言理解(NLU)和生成(NLG)任务,并让二者互相学习提高彼此 。
如今罗福莉再回顾VECO这个工作,也有一些感慨:
如果是两年前还在学校的我,会觉得这好简单,我可以加上很多的花式技巧 。但是到了工业界要考虑到架构在不同业务场景下的通用性,只好牺牲一些复杂有趣的模型设计 。
AliceMind中的生成式语言模型PALM,则是将预训练目标从重构输入文本,改成了预测后续文本 。
这样一个改动就促使模型对输入文本进行更深入地理解,在问答生成、文本复述、回复生成、文本摘要等任务上都取得了更好的效果 。
还有结构化语言模型StructuralLM、机器阅读理解模型UED和知识驱动的语言模型LatticeBERT,都在各自的领域取得了明显地优势 。
除了此次开源的7个模型,AliceMind中还包括了超大规模中文理解和生成统一模型PLUG 。
AliceMind中的模型,看起来有一个共同特点,就是擅长”跨界“ 。
从跨语言、跨模态到语言理解和生成的统一,都是基于Transformer架构将不同的输入在一个更大的编码空间上统一建模 。
罗福莉补充道:
AliceMind的这种将Transformer作为统一模型架构的解决方案已经比较成熟,但要做到更好“跨界”,接下来努力的方向是解决不同类型或粒度输入的深度融合和匹配问题 。


推荐阅读