地球|自研分析工具深挖“地球大数据”


地球|自研分析工具深挖“地球大数据”
文章图片
地球大数据挖掘分析系统EarthDataMiner作为“可持续发展大数据平台系统”重要组成部分正式公开发布 。图片来源:中国科学院软件研究所
■采访人员 胡珉琦
2015年,联合国正式通过《改变我们的世界——2030年可持续发展议程》,提出了包含一系列涉及17个领域169个具体问题的可持续发展目标(SDGs) 。但是,由于指标数据和方法的缺失,可持续发展目标实施进程监测始终面临艰巨的挑战 。
地球大数据具有宏观动态多尺度监测能力,是实现SDGs的重要手段 。然而,科学家们要如何对那些海量、多源、多时相、高度集成的大数据进行挖掘分析,进而开展SDGs评估?
在近日举行的2021年可持续发展大数据国际论坛上,中国科学院软件研究所(以下简称软件所)研究人员做了题为《面向SDGs的交互式在线分析技术与系统》的技术报告,对这一问题进行了解答 。
数据、分析工具缺一不可
承诺消除一切形式和表现的贫困,包括到2030年时消除极端贫困,是SDGs一项关键目标 。然而,要摸清贫困国家的贫困状况本身就困难重重 。
传统的入户调查方式成本极高,且严重依赖稳定的国内环境,许多发展中国家根本负担不起 。而利用遥感技术,捕捉夜间光亮的卫星图像数据,结合全球人口动态统计分析数据库的人口数据,使用统计方法估计国家和区域的社会经济状况,提高对全球贫困问题的及时感知,已经不是什么新闻 。
从理论上讲,更高的亮度意味着更多基础设施、更高的发展水平 。但是,很多模型无法区分极端低光照水平和零光照水平 。而且,在人口密集的地方,仅凭夜间光照水平评估贫困状况也会有很大偏差 。
2016年,斯坦福大学研究人员在《科学》上发表了一项研究成果 。他们把高精度卫星图像和深度学习、迁移学习等技术结合起来,从而预测了非洲五国尼日利亚、乌干达、坦桑尼亚、卢旺达和马拉维的贫困状况 。
这项研究的创新之处在于,科学家用高精度、高质量的卫星遥感图像数据来训练一个深度卷积神经网络,以预测同区域的夜光数值大小 。但这并非最终目的,而是为了提取遥感图像数据中的特征,比如道路、房屋、汽车等,然后把这些特征和少数采样点的贫困调查数据作为标签,训练一个普通的神经网络 。这一计算工具最终可以用来高精度地预测一个地区的贫困程度 。
“这项研究给我们的启示是,要想实现SDGs指标评估,数据和有效的挖掘分析工具是缺一不可的 。”软件所副研究员刘杰说道 。
他同时指出,SDGs指标量化评估涉及地球大数据分析处理的全流程,包括遥感影像的访问与语义分析、各种数据产品的解析和预处理、多源数据的融合计算与可视化等,需要采用大数据与人工智能等大量前沿技术,这也给开展SDGs评估的科学家们带来了一系列技术挑战 。
“虽然针对大数据挖掘分析已经有一系列通用软件,包括Matlab、Python等单机版软件,还有分布式环境软件和云服务模式的分析软件,但对领域科学家而言,这些软件存在巨大的应用开发鸿沟 。”刘杰表示,面对海量、多源、多时相、高度集成的大数据,科学家需要软件提供数据处理功能的服务、分析模型的服务,以及成果应用的服务 。
自主研发地球大数据挖掘分析系统
9月6日,全球首个以大数据服务联合国2030年可持续发展议程的国际科研机构——可持续发展大数据国际研究中心正式成立,由其开发的“可持续发展大数据平台系统”也正式发布 。作为它的重要组成部分,依托平台系统的栅格数据引擎Databox、广目云平台CASEarthCloud,科研团队自主研发了一套地球大数据挖掘分析云服务系统(EarthDataMiner),支持科学家在线开展遥感影像及其他科学数据的智能分析处理,支持SDGs指标全流程在线计算,从而降低科学家利用云平台、大数据、前沿人工智能算法开展大规模数据分析的难度 。EarthDataMiner支持科学家访问海量数据,提供算法API,支持在线编写代码开发SDG算法,并将算法成果发布为Web App工具,支持全球用户访问使用 。

推荐阅读