郭华东:把地球装进计算机
信息化作为当前社会发展的主要驱动力,其效力与政府、科技界、企业界、社会以及大众生活都息息相关。政府作为信息资源的主要占有者和使用者,在使用数据发展科技和经济产业等方面起着至关重要的作用。大数据是与自然资源、人力资源一样重要的战略资源,是一个国家数字主权的体现。在大数据时代,国家层面的竞争力将部分体现为一国拥有大数据的规模、活性以及对数据的解释、运用的能力。一个国家在网络空间的数据主权将是继海、陆、空、天之后另一个博弈的空间。
数字地球即地球大数据
有数据表明,截止到2012年全球数据的分布中,中国占13%。预计6年后中国的数据量将占全球近五分之一。那么,随着科技的发展,未来数字地球如何发展?未来15年数字地球应该怎么构架?
围绕着我们居住的地球,每天有众多卫星在沿着不同的轨道对地球成像,普通民众关注的海量数据不断涌来。回顾过去50年的发展历史,可以看到,1980年前的18年,全球一共仅有14颗对地观测卫星;1981年到1990年间,发展到43颗;2000年为85颗;2012 年为174颗。发展到今天,未来七年中国卫星将发展到近100颗。这意味着未来中国卫星数量将居世界第一。
数据是构成数字地球的核心,包括不同的地理数据,需要改良的数据以及地理数据,其数据平台依托国家基础设施建设,目前已经形成比较大的规模,加上数据互联网,形成了一个完整的空间数据的获取、传输、分析等全流程的数据系统。
新一代数字地球涵盖大数据的4V特征。在数据上,新一代数字地球不仅关注地球现状,还包括对地球演变历史的展现和未来发展的预测,所研究的数据十分巨大,涉及的数据规模已达到EB 级。在数据类型上,所应用的数据包括文档、视频、图片、地理位置信息等,并涉及对地观测、科学模型、社会、经济等多类数据,类型繁多。新一代数字地球的数据来源多样,既包括分布全球的观测网络实时接收的大量空间数据,还包括民众用户通过互联网和带有地理信息的手持终端设备提供的个性化信息,所获取的数据实时性强、更新快,但是随着来自互联网的数据比重迅速增大,也降低了数据的价值密度。此外,新一代数字地球平台具有对海量数据进行快速处理、实现数据到信息化快速转化的能力,能够为人类可持续发展面临的环境、灾害和生态等问题提供第一时间的信息服务支持。
科学大数据计算问题不仅仅是一个数据处理与分析的问题,还是一个复杂系统与数据共同建模和计算的问题。这个问题需要复杂系统理论、估计理论与本领域的机理模型相结合来探索解决方法。从方法论上看,地理数据需要模拟、高性能大规模并行空间存储,基于解析和非解析质点的析出,特征与模型,信息理论,动态数据提供的过程、仿真、建模等等这一系列的方法。基于此,中科院主持召开第一届国际数字地球大会时,有记者采访问到“什么是数字地球?”这个问题,我的回答是:“数字地球就是把我们的地球装入计算机”。这是我12年前的一个认识,而现在从科普的角度来看,仍然可以这么说。当然,今天我们在研讨什么是数字地球的时候,你如果问我什么是数字地球?我说数字地球就是地球大数据。
从数字地球本身的研究上,要考虑它的实用性。比如1935年我国地理学家胡焕庸提出“瑷珲—腾冲一线”,划分我国人口密度的对比线,以此线为界,约有94%的人口居住在约占全国土地面积42.9%的东南部地区,约6%的人口居住在约占全国土地面积57.1%的西北部地区。那么这条线可不可以扩?如何扩?是否能用到大数据的理论,空间系统的方法,我们正在组织团队进行相应的研究。如果能够找到破解的方法,中国的格局和一些新思路将可能会有一些新的转变,我们期待这一天的到来。
大数据时代的到来,能够进行数据挖掘和知识发现,能够为我们的研究机理做出贡献。在科研发现过程中,我们还需要面向国际科技前沿,面向国家重大需求。
我们的分析,未来的数字地球应该为全球变化、对减灾防灾、对新能源的开发、对农业食品安全、对数字政治的发展等五个领域做出重要的献。
发展科学大数据的四个建议
可以看到,当前,大数据的发展任重道远,虽然存在诸多问题,但大数据对科技、经济和社会的推动有着光明的前景。我国应加速发展大数据科学,有序推动大数据研究。建议如下:
第一,顶层设计制定国家层面大数据战略。当前大数据技术的标准和产业格局尚未形成,这是我国实现跨越式发展的宝贵机会,应从战略上重视大数据的开发利用,形成顶层设计,整合国家资源,制定产业政策和行业标准,构建大数据产业链,使我国大数据技术与产业形成良性、有序、快速的发展;
第二,配置大数据研究资源。构建大数据的良性生态环境,从政策制定、资源投入、人才培养等方面给予大数据研究强有力的支持;利用政策引导消除部门壁垒,建立和谐的大数据生态系统;构建有技术自主权的大数据产业链,有针对性地资助有关大数据的重大科研活动;国家在大数据平台的构建、典型行业的应用和研发人才的培养等方面应提供相应的支持;
第三,开展大数据基础理论研究,建立理论、方法体系。大数据科学作为一个新兴的交叉学科方向,其共性理论基础将来自多个不同的学科领域。研究大数据的内在机理,包括大数据的生命周期、演化与传播规律,数据科学与社会学、经济学等之间的互动机制,以及大数据的结构与效能的规律性(如社会效应、经济效应等)。研究大数据表示、数据复杂性和大数据计算模型。研究大数据知识发现、大数据环境下的实验与验证方法、大数据的安全与隐私等;
第四,推动大数据在各领域的应用。尤其是具有明显大数据驱动的典型科学和工程领域,以全球变化、高能物理、生物信息等学科为例,注重具有引领示范作用的学科、理论、方法及应用,避免大数据成为一种炒作。大数据的应用领域甚广,应涉及国计民生密切相关的领域,如科学决策、环境与资源管理、金融工程、应急管理(如疾病防治、灾害预测与控制、食品安全与群体群体事件)以及知识经济等。
(本文整理自中国科学院郭华东院士在“首届科学数据大会”上的主题报告)
——摘自《中国教育和科研计算机网》