中国|《中国科学数据》:从根源唤醒沉睡的数据

近年来,因“原始数据丢失,工作无法重复”造成的撤稿事件屡见不鲜 。例如,2020年1月,2018年诺贝尔化学奖得主Frances H. Arnold撤掉了2019年5月发表于《科学》的一篇论文,原因是缺失了关键的原始数据,致使研究成果无法重复 。
“只发表论文不公开研究数据,可能会导致科学研究成果无法复现,不仅降低论文可信度,还可能衍生学术不端等行为 。但如何让科学家自愿分享科研数据是长期以来难解的问题 。”《中国科学数据(中英文网络版)》(以下简称《中国科学数据》)常务副主编、中国科学院计算机网络信息中心(以下简称网络中心)研究员黎建辉在接受《中国科学报》采访时坦言 。
“科学家科研贡献和学术声望评价机制一成不变,是阻碍科学数据开放共享实践的一个根本问题 。”《中国科学数据》主编、中国科学院院士郭华东认为,“数据出版可使数据达到可引用和永久可访问的状态,促使数据尽快纳入科研评价体系,是科研共同体的试金石、防腐剂 。”
走出“深闺”
随着信息技术发展,数据存储和传播所面临的容量、时间和空间藩篱已被打破,科学数据共享不仅是学术界枯苗望雨之盼,更是影响国家安全和科技进步的重要战略 。
作为《中国科学数据》的主办单位,多年来,网络中心积累了丰富的数据资源,开展了一系列数据共享探索,但效果仍不理想 。“一方面科学家不愿意共享数据,另一方面数据共享没有正式的渠道和规范的标准,而造成科学家将数据‘攥’在手中的根本就是数据权属和激励机制问题 。”黎建辉表示 。
2012年,国际数据期刊开始呈发展态势,国内科学数据开放共享领域的研究者们也逐渐意识到,数据出版是我国数据共享发展的必由之路 。
【中国|《中国科学数据》:从根源唤醒沉睡的数据】然而,申请刊号成为当时最难的事 。“我国对刊号的审批非常严格 。数据期刊作为新事物,申请刊号更是难上加难,很多人甚至不明白数据出版究竟是什么 。”黎建辉说 。
2015年,国家新闻出版广电总局开展网络连续型出版物规范管理试点工作 。独具网络出版特性的《中国科学数据》抓住这一机遇,正式获批刊号,成为我国首个专门面向多学科领域科学数据出版的在线学术期刊 。
存储对数据发表工作至关重要 。为此,网络中心还自主研发了一套支持数据出版的工作平台,由中国科学数据在线工作平台和科学数据存储库系统ScienceDB(科学数据银行,以下简称ScienceDB)共同构成 。
海军大连舰艇学院教员郑崇伟长期致力于海洋研究 。他发现,当海洋研究人员需要数据时,通常先想到的是NOAA、NASA等机构,我国海洋数据在国际上的认可度还有待提高 。“我们希望将团队制作的海洋数据向国际同行分享,展示我国科研人员在海洋大数据研究方面的积极贡献,提高国际话语权 。”
然而,分享之路困难重重 。“在数据出版之前,国外同行通常会通过邮件等方式向我们索要数据,他们提供的数据上传网站极难登录,而且数据没有编号,我们也无法告知其数据如何引用 。”郑崇伟坦言,“《中国科学数据》及其存储平台解决了我们的烦恼,我们的数据集有了‘身份证’,不但引用规范起来,引用率也提高了很多 。”
2015年,中国科学院空天信息创新研究院副研究员邱玉宝结束在地球观测组织的任职,开始对此前的课题成果数据进行梳理 。“一方面,希望数据有存储之地,节省查找时间,也便于分享;另一方面,我们想紧跟国际数据公开共享的发展趋势 。”
在了解到网络中心开展数据出版并筹建了ScienceDB后,邱玉宝便借助这个平台公开数据 。让他没想到的是,数据公开后得到多个平台转载,《青藏高原MODIS逐日无云积雪面积数据集》(以下简称积雪数据集)是目前通过ScienceDB平台下载量最多的数据集,还被科技部的多个国家级数据中心转储 。

推荐阅读