训练模型|“看图作文”,机器也能做到

向电脑机器里上传一幅“有一只小熊玩偶和一堆积木”的图画,询问机器:“积木在小熊的哪边?”机器快速做出回答:“积木在小熊的左边 。”——这是预训练模型“文汇”的典型应用案例 。
近日,北京智源人工智能研究院(以下简称智源研究院)发布面向认知的超大规模新型预训练模型“文汇”,旨在探索解决当前大规模自监督预训练模型不具有认知能力的问题 。这一项目由智源研究院发起的“悟道”攻关团队完成,团队成员包括来自智源研究院、阿里巴巴、清华大学、中国人民大学、中国科学院、搜狗、智谱·AI、循环智能等单位的科研骨干 。
“‘文汇’模型有针对性地设计了多任务预训练的方法,可以同时学习‘文到文、图到文以及图文到文’等多项任务,实现对多个不同模态的概念理解 。”智源研究院院长、北京大学信息技术学院教授黄铁军介绍说 。
让机器理解自然语言
OpenAI是由美国硅谷诸多科技公司负责人联合建立的人工智能非营利组织,其主要目标包括制造“通用”机器人和使用自然语言的聊天机器人等 。
在现实世界里,人与人之间交流用的是自然语言 。所谓自然语言,通常是指一种自然地随文化演化的语言,例如汉语、英语、日语等 。
自然语言是人类智慧的结晶,也是人类交流和思维的主要工具 。但要让机器也像人一样自由地用自然语言交流,却是非常困难的事 。这要求机器像人类一样认识现实世界,像人类一样学会思考 。但是,显然目前的机器还无法做到 。
人工智能在发展进程中,正好遇到自然语言处理这只“拦路虎” 。可以说,自然语言处理是人工智能中最为困难的问题之一 。
人类的知识学习与积累是一个复杂且长期的过程 。青少年时期,人们不仅主动语文、数学、物理等知识,还通过游戏、生活等经历在大脑中不断积攒知识 。长大后,人类操作计算机时,会利用此前的知识背景,同时融合新的知识体系 。而一个毫无知识储备的人,则很难理解这一切 。
受此启发,研究人员为人工智能建立“预训练模型”,模仿人类学习积累的过程 。当自然语言处理的知识储备逐渐增多,人工智能也随之更加智能,帮助科学家更好地开展任务处理 。
2020年5月,OpenAI发布了迄今为止全球规模最大的预训练模型GPT-3 。从此,超大规模预训练模型就成为人工智能领域研究的热点 。今年1月初,OpenAI又发布了DALL·E和CLIP两个大规模预训练模型,用于文本与图像链接处理 。
据智源研究院学术副院长、清华大学计算机系教授唐杰介绍,此次发布的“文汇”模型,与DALL·E和CLIP这两个预训练模型类似,参数规模达113亿,仅次于DALL·E模型的120亿参数量,是目前我国规模最大的预训练模型,且已实现与国际领先预训练技术的并跑 。
破解机器常识认知难题
近年来,OpenAI、谷歌、脸书等国际IT公司,都在持续推动大规模预训练模型的快速发展 。
但唐杰指出,虽然GPT-3模型在多项任务中表现出色,却存在没有常识、不具有认知能力等问题 。例如,如果向GPT-3模型提问:“长颈鹿有几只眼睛?”它的答案是:“两只眼睛 。”此时,如果再继续提问:“我的脚有几只眼睛?”GPT-3的回答恐怕就不那么尽如人意,因为答案依然是“两只眼睛” 。
“这就不符合人类常识 。”唐杰表示,GPT-3等超大型预训练模型在处理复杂的认知推理任务时,例如开放对话、基于知识的问答、可控文本生成等,结果仍然与人类智能有较大差距 。
为推动研发我国自主的大规模预训练模型,解决目前国际主流模型存在的问题,2020年10月,智源研究院启动了新型超大规模预训练模型研发项目“悟道” 。

推荐阅读