科学数据的积累、开放、共享,是世界科技发展的重要资源和推动力,但数据“孤岛”频现,让不同领域大量科学数据处于沉睡状态。我国积极推动地球大数据实现从被动共享到主动共享转变,通过建立数据、计算与服务一体化的数据共享系统,推动形成地球科学数据共享新模式。

  如何让黄河三角洲40年间的变化像过电影一样地展现在人们眼前?如何在一张图内看到全世界风云变幻?如何在一个网站搜索到所有需要的数据……

  新年伊始,中国科学院发布的A类战略性科技先导专项——“地球大数据科学工程”给出了答案。
       打破数据“孤岛”
  地球大数据有何用?“地球大数据科学工程”专项负责人、中国科学院院士郭华东举了个例子:如果把我国430个人口超过30万的城市遥感数据和人口数据等结合研究,就能了解土地使用率与人口增长率之间的比率。比如1990年至2000年,大数据显示,安徽省的城市人口增长率在增加,但土地消耗率在降低,总体上人口城市化大于土地城市化;2000年以后,大数据又显示,安徽省人口增长率持续降低,土地消耗率却明显提升,土地消耗率与人口增长率比率持续增加,这表明安徽省的土地城市化远远大于人口城市化。

  大数据时代,科技创新越来越依赖于科学数据综合分析。“大数据是财富,也是资源,作为大数据的重要组成部分,地球大数据正催生人们用全新的思维方式去了解地球。”郭华东说。

  但是,我国的数据共享一直是个难题:很多单位和机构都有自己的数据资源,都认为数据应该共享,可真正实现共享很困难。

  一位科学家曾对这种“各自为战”的状况深有感触。他到国外参加学术会议,在会上才知道与他同一系统的另一个研究单位也在做同样的研究,而且其中有很多是重复性的。

  数据“孤岛”频现,让不同领域大量科学数据处于沉睡状态。“科学数据的积累、开放、共享已经成为世界科技发展的重要资源和推动力。”在中国科学院副院长张亚平看来,致力于推动地球大数据实现从被动共享到主动共享转变,在科学数据共享及其体制机制若干关键问题上取得实质性突破,为中科院乃至国家层面形成良好的数据共享新生态,中科院理应先行先试。

  为了唤醒沉睡的科学数据,2018年1月1日,中国科学院A类战略性先导科技专项“地球大数据科学工程”正式启动实施,执行期5年。作为2018年度的重要成果,地球大数据共享服务平台近日正式发布。

  “平台以共享方式为全球用户提供系统、多元、动态、连续并具有全球唯一标识规范化的地球大数据,通过建立数据、计算与服务一体化的数据共享系统,推动形成地球科学数据共享新模式。”郭华东表示。

       服务全球用户
  地球大数据共享服务平台“体量”有多大?

  根据郭华东提供的数据,平台目前提供的共享数据总量约5PB(1PB=1024TB)。其中,对地观测数据1.8PB,生物生态数据2.6PB,大气海洋数据0.4PB,基础地理数据及地面观测数据0.2PB;地层学与古生物数据库49万条、中国生物物种名录360万条、微生物资源数据库42万条数据记录,组学数据目前在线10亿条。

  “目前用户能够在线检索到40%数据,随着硬件条件不断完善,平台数据将陆续上线,并且每年将以3PB的数据量更新。”郭华东说。

  数据共享服务系统和CASEarth Databank系统,以及区域系统——数字丝路地球大数据系统,这是地球大数据共享服务平台的3个核心系统。

  正如阿里巴巴创造的淘宝模式一样,数据共享服务系统提供的是一个快捷精准的地球科学数据。该系统基于专项数据特点,可提供项目分类、关键词检索、标签云过滤、数据关联推荐等多种数据发现模式,同时提供在线下载、应用程序编程接口访问等多种数据获取模式,支持可定制的多格式数据在线查看、预览和查询,并能应对各种个性化需求,进行统计、收藏、推荐、下载和评价服务。用户可以利用这个系统,根据数据共享权限进行共享服务。

  数字丝路地球大数据系统包括“一带一路”区域资源、环境、气候、灾害、遗产等专题数据集94套、自主知识产权数据产品57类、共享数据超过120万亿字节。目前,该系统已具备千万亿字节级的软硬件环境,在国际上率先研发了通用大数据平台下地球大数据提取、转换与加载工具集,实现了6大类数据的检索、共享、产品可视化展现,并通过中、英、法3种语言版本在国际上实施共享。

  利用CASEarth Databank系统,你可以像看电影一样观看目标地点数十年的沧桑巨变。此系统提供长时序的多源对地观测数据即得即用产品集,包括1986年中国遥感卫星地面站建设以来20万景(每景12种产品,共计240万个卫星数据产品)的长时序陆地卫星数据产品等。

  有了它能干啥?比如在重要会议前,我们可以清楚地透过颜色变化,了解从江苏到山东浒苔的变化趋势,在一分钟内就可以将过去浒苔在该地区间的移动了然于胸,不用再大费周折实地考察。同时,该系统还引入人工智能等先进技术,面向一般用户、行业用户和科学家用户,提供不同层次的对地观测数据分析与信息挖掘服务,为你“量身定制”所需内容。

  “未来,用户不仅可以利用其数据、计算和技术来实现应用,也可以上载多源数据,嵌入算法模型,并结合系统资源来完成特定的专题信息挖掘、知识发现和决策支持。”郭华东说。
       面向科学发现
  根据郭华东的研究,一个国家拥有大数据的“体量”与国家的GDP发展成正比,“谁拥有了大数据,谁就拥有了未来”。

  不过,仅仅拥有还不够,科学数据的价值在于使用。对于有些科学家对自己的数据“总愿意锁在自己的抽屉里”,不愿意共享的情况,郭华东表示:“该系统可以解决科学家数据共享的后顾之忧,你的数据上线了,进入到这个系统,会拥有自己的版权,在这个平台上,数据可以实现全球定位并且拥有自己的专属‘身份证’。”

  谈及与同为资源数据共享平台的谷歌大数据的区别,郭华东表示,主要有4点不同:首先,数据资源不同,谷歌大数据是基于大量的卫星数据,以遥感卫星数据为主,而地球大数据平台是在充分重视卫星数据基础之上,同时采用大量大气、海洋、陆地等数据,在资源环境、生态生物方面都是高度集成的;其次,系统功能不同,谷歌更多地做一些展示和空间分析系统,而他们则更多地加入了计算系统,促进数据、计算、服务一体化;第三,应用服务不同,谷歌更多地做大众化的系统,而他们的技术则更多面向科学发现,例如对区域地质演化规律的理解,对生物学发现和古生物研究等方面;最后,谷歌的目标是面向市场,但他们的系统更多地服务于政策、决策,科学家可以利用地球大数据平台进行更多科学发现。

  正如张亚平所说,如果我们不跨越数据共享这座高山,就永远不可能到达大数据胜利的彼岸。构建地球大数据共享服务平台,中科院走出了成功的第一步,也是坚实的一步。