AI|让AI自动审稿 一共分三步

采访人员 郑金武
谈及研究AI自动审稿系统的初衷 , 卡内基·梅隆大学博士后刘鹏飞说 , “在不同的时代背景下 , 都会有一些新的、不同的发展需求;一个人如果能感受到它并且把握住 , 那么就会成为这个时代所在领域的弄潮儿 , 或者成为所在领域的领先者 。”
科学研究的快速发展 , 使得同行评议的科学出版物呈现指数级增长 。以机器学习和计算神经科学国际会议——神经信息处理系统大会(NeurIPS)为例 , 2017年其投稿量有3000余篇 , 至2020年 , 上升到了1万余篇 。繁重的审稿工作给现有的审稿机制带来了巨大的挑战 。
“所以我们思考自动审稿的可能性 , 即AI能否帮助我们从繁重的审稿工作中解放出来?”刘鹏飞于是和卡内基·梅隆大学硕士生袁玮哲、助理教授格雷厄姆·纽比格合作 , 着手研究AI自动审稿系统“ReviewAdvisor” 。在日前的智源社区青源LIVE活动上 , 刘鹏飞与袁玮哲在线分享了研究该系统的历程 。
【AI|让AI自动审稿 一共分三步】解构
之前 , 也有人尝试做“自动审稿”任务 , 但这些工作几乎都是把AI生成的评审意见和人写的意见混在一起 , 让大家看看能不能区分 。这些工作很难评价AI生成的评审意见是否合理以及高质量 。
可以说 , AI自动审稿这项工作的第一个贡献 , 就是提出了一些评价指标 , 能够从多角度刻画“评审意见”的质量 。
“对于我们来说 , 首先需要回答的一个问题是 , 什么才是一个好的评审意见 。”袁玮哲认为 , 否则自动审稿系统就无从谈起 , “因为就算设计出了系统 , 没有好的指标去衡量生成的评审意见的质量 , 也很难去提升系统” 。
为此 , 3人查阅了很多顶级会议的“论文评审指南” , 总结出了一个好的评审意见应该具备的特征 , 主要有5个方面:判断性、全面性、合理性、准确性、拟人性 。例如 , 判断性是指评审意见对一篇论文质量好坏的评判 , 与这篇论文最后是否被接收之间的关联性 。
同时 , “我们也希望系统生成的评审意见 , 与人写的评审意见相比 , 在书写结构、语义逻辑等方面 , 都应该是比较类似的 。”袁玮哲说 。
建模
评价指标的挑战解除后 , 随之而来的是数据集的挑战 。“同行评审数据非常少 , 而且评审数据都是非常私人的 , 不愿意公开 。”袁玮哲认为 , 之所以此前很难做“自动评审”这样的研究 , 数据少且不公开是重要原因 。
而后出现的“公开评审”平台 , 让人们有机会从中获得一些评审意见数据 。但因为前几年的投稿量非常少 , “公开评审”平台上只有几百或者上千条数据 , 这样的数据量也很难进行一些自动审稿模型的训练 。但近年来恰逢AI研究非常火热 , 投稿量基本上是年年翻倍 , 研究人员能够从公开评审平台上收集到足够多的数据 , 保证模型训练 。
于是 , 3人用网络爬虫工具 , 获取了2017年~2020年的ICLR(国际学习表征会议)和2016年~2019年的NeurIPS会议的公开评审数据 , 一共收集到了8000多篇论文以及2.8万多条评审意见 , 一篇论文一般对应3~4条评审意见 。
但爬取的这些评审意见数据 , 都是纯文本形式的 , AI系统是无法理解的 。“我们需要对评审意见里的信息进行‘表征’定义 , 然后 , 我们采取了一种半人工半自动的方法 , 对数据集进行标注 。”袁玮哲表示 , 最终得到了质量非常高的数据集 。

推荐阅读