训练模型|算法自动“划重点”AI学会“抱佛脚”( 二 )


基于这一判断,该团队提出任务驱动的语言模型(TLM),它仅利用从大规模通用语料中提取的少量与下游任务相关的数据,就可以取得与全量数据类似的结果 。
“相较于传统的预训练模型RoBERTa(基于BERT的改进模型,使用更大的批次和更多的数据对模型进行更长的训练),TLM仅需要约1%的训练时间与1%的语料,即可在众多NLP任务上,表现出比肩甚至超出预训练模型的性能 。”姚星丞说,“我们目前也正在尝试将任务驱动的方法推广到更大规模的模型上,如GPT-3或T5 。”
跳出预训练范式
为了从大规模通用语料中抽取关键数据,TLM以任务数据作为查询对象,用基于稀疏特征的BM25算法作为召回算法,对通用语料库进行相似数据的召回 。
“除已有的下游任务数据以外,其余的语料均通过BM25算法进行相似性匹配而自动筛选,不需要人工做额外的选择与标记 。”姚星丞说 。“TLM基于任务数据和召回数据,同时优化任务目标和语言建模目标,从零开始进行联合训练 。”
为了测试TLM的性能,研究人员在8项NLP分类任务上,从三个不同规模展开了对比实验 。这8项任务涵盖了计算机科学、生物医药、新闻、评论等4个领域,包括了训练样本数量小于5000的低资源任务和训练样本数量大于20000的高资源任务,任务类型覆盖了话题分类,情感分类,实体关系抽取等 。
测试结果显示,和对应“预训练—微调”基准相比,TLM实现了相当甚至更优的性能 。平均而言,TLM减少了两个数量级规模的训练计算量以及训练语料的规模 。整体来说,预训练模型以极高的成本学习尽可能多的,和任务无关的知识,而TLM以非常低的成本,针对每个任务学习相关知识 。
“当我们有少数特定目标的任务需要解决的时候(例如希望对少量几个数据集进行研究),TLM会是非常高效的 。”姚星丞说,“而需要一次性解决大量任务时(例如工业界构建一个NLP平台为多方提供相似的服务),预训练模型仍然具有优势 。”
此外,TLM是任务驱动的,所以可以给研究人员更大的自由度,从而自定义策略进行标记、序列长度、数据表示、超参数的调整等等,从而达到提高性能和效率的目的 。
“TLM的提出,让NLP研究跳脱出‘预训练—微调’范式成为可能,这有利于推动NLP研究公平化 。”杨植麟解释说,预训练本身严重依赖大量的计算资源,这一限制使大多数NLP研究者只能专注于对微调算法的研究 。然而微调算法的性能上限,很大程度上受预训练模型性能的约束 。而TLM可以让大多数研究人员可以以较低的代价和较高的效率,基于最先进的解决方案对模型架构、损失函数、算法等方面进一步自由探索 。
杨植麟认为,未来会有更多有趣的研究可以在TLM的基础上展开 。例如,如何经济地达到更大规模预训练模型的表现效果;如何提升TLM的通用性与可迁移性;可否利用TLM进行小样本或零样本学习等 。此外,还可以将预训练模型和TLM结合,从而在通用性和效率之间实现更好的权衡 。(张双虎)
相关论文信息:https://arxiv.org/pdf/2111.04130.pdf
项目地址:https://github.com/yaoxingcheng/TLM

推荐阅读