训练模型|“看图作文”,机器也能做到( 二 )


黄铁军介绍说,智源研究院是北京市成立的一个新型研发机构,旨在支持科学家勇闯人工智能科技前沿“无人区”,挑战最基础的问题和最关键的难题,推动人工智能理论、方法、工具、系统和应用取得变革性、颠覆性突破 。
此次发布的面向认知的超大规模新型预训练模型“文汇”,是“悟道”项目的一期研发成果,用于自动生成图片、文字以及视频,具有初级认知能力 。同时,“文汇”模型有针对性地设计了多任务预训练的方法,可以同时学习“文到文、图到文以及图文到文”等多项任务,实现对多个不同模态的概念理解 。
“经过预训练的‘文汇’模型,不需要进行微调就可以完成‘用图生文’等任务;对模型进行微调则可以灵活地接入视觉问答、视觉推理等任务 。”黄铁军解释说 。
唐杰也表示,“文汇”模型不仅使用数据驱动的方法来建构预训练模型,还将用户行为、常识及认知联系起来,主动“学习”与创造 。本次发布的“文汇”模型可以完成“用图生文”等任务,具有一定的认知能力 。
据介绍,目前OpenAI也在研发更大规模的预训练模型GPT-4参数 。唐杰认为,未来,GPT-4参数又会增大至少10倍,而且处理的数据将会更加多模态,能够处理文字、图像、视觉、声音等 。
可完成多种图文生成任务
据介绍,“文汇”作为面向认知的大规模预训练模型,研究人员在研发过程中,提出了针对多模态认知生成的大规模预训练的架构 。
对于上传图像的处理,研究人员进行了切块并对块提取特征的处理 。这些特征以及对应的位置编码,可以让图像和文本组合在一起送入模型,从而实现对图像的理解 。这让“文汇”模型能够完成多种图文生成任务 。
打个比方,如果研究人员将一张身着旗袍女子的照片上传给“文汇”,在商场场景下,“文汇”微调参数后模型将给出如下描述:“旗袍是一种古典的服饰,它能够彰显出女性的优雅、知性和美丽 。这款旗袍采用了经典的圆领设计,穿着舒适自在;精致的刺绣工艺,展现出华贵和大气……”而如果上传一张建筑图像,同时配上提示“走进平定县宋家庄村,映入眼帘的是”,“文汇”模型将给出相应描述:“一座座古色古香的明清建筑,这里有着深厚的历史文化底蕴和独特的民俗风情 。走进村子,就像走进了一个童话故事里的世外桃源……”
“文汇”可谓“望图生义”,这显示了“文汇”模型在常识认知和“用图生文”方面的强大功能 。
不仅如此,目前,“文汇”模型已有四个样例应用可用于展示模型效果,包括基于上传图片的开放域问答、用语言操作数据可视化、基于预训练语言模型的诗词创作应用、可控人设的开放域问答等 。
唐杰表示,现在“悟道”项目研究团队正在视觉等更广泛的范围内,对大规模自监督预训练方法开展探索研究,已经启动了四类大规模预训练模型研制,包括“文源”(以中文为核心的超大规模预训练语言模型)、“文汇”(面向认知的超大规模新型预训练模型)、“文澜”(超大规模多模态预训练模型)和“文溯”(超大规模蛋白质序列预训练模型) 。
而在2020年11月14日,智源研究院已发布了“文源”(以中文为核心的超大规模预训练语言模型)第一阶段26亿参数规模的中文语言模型 。
【训练模型|“看图作文”,机器也能做到】黄铁军表示,下一步智源研究院将联合优势单位加快四类大规模预训练模型的研发进度,特别是“文汇”模型,未来将着力在多语言、多模态条件下,提升完成开放对话、基于知识的问答、可控文本生成等复杂认知推理任务的能力,使其更加接近人类水平 。(郑金武)

推荐阅读