民航




–迈向大智能时代

大数据平台从外部数据采集平台获取数据,经过数据清洗、数据治理存储在平台内部数据存储组件上,并为上层的应用系统提供批处理、实时处理等方式的海量数据处理能力,也为上层的应用系统提供MPP、机器学习、图库、知识图谱等数据挖掘和数据分析的组件,并通过统一查询接口为上层提供访问能力。
系统主要数据采集集成、数据清洗、数据存储、数据分析与挖掘、数据查询、平台管理、数据管理等七大部分,大数据平台架构设计思路是以数据存储为核心,以数据处理为主线,以管理为主要手段。围绕数据存储,数据的处理流程分为数据采集集成、数据清洗、数据分析与挖掘、数据查询等主要模块。其是温,热大数据均存在极融一体化平台中,冷数据在vSAN中。

大数据平台的数据来源可以分为两大类,在公安网外部的数据包括21个应用系统数据、VPDN的数据、运控专网和中航信专网数据、民航通信网数据以及互联网采集数据等均是通过外部数据采集及处理平台统一采集,存储到公安网内部的原始素材库,然后经由ETL数据采集集成工具统一转换成大数据系统可以管理的数据存储到大数据平台内。在公安网内部的数据包括基础业务平台、情报及查询平台、综合信息共享服务以及数据交换中心中编选的数据直接通过大数据平台的ETL数据采集集成工具转换成大数据系统可以管理的数据存储到大数据平台内。

另外,大数据中心也会通过数据交换中心获取公安部七类人和八大信息库的相关数据,以及各省公安厅信息资源服务平台查询比对后的标识数据。

下面分别介绍一下这些系统平台与大数据平台的关系。
1) 外部数据采集和处理平台
外部数据采集和处理平台负责在采集安全边界外面的数据,包含互联网舆情数据、民航安保相关的21个互联网应用系统数据、民航通信网数据等,并在保证数据原始不修改的情况下存储在公安网内部的原始素材库中,形成大数据平台可以采集、清洗、治理的原始数据版本。

2) 原始素材库
原始素材库的数据要保证数据的原始性,存储方式要和采集源数据存储方式保持一致。结构化数据存储在关系数据库和非关系型数据库中,视频、图片、文件存储在分布式文件系统和对象存储中,半结构化的数据根据实际情况会使用数据库和分布式文件系统结合的方式来存储。

3) 数据交换中心
数据交换中心构建在大数据平台的上层,作为民航安保系统的重要基础平台,会为大数据平台的数据编制数据目录提供外部相关结构和单位,同时也会根据大数据平台的需求从外部相关结构和单位抓取数据,通过大数据平台的数据采集集成工具统一加载到大数据平台内部。

4) 情报及查询平台
情报及查询平台基于大数据平台提供的各种数据,包括要素库、主题库,进行情报分析和研判,并把研判结论回写到大数据平台。
情报及查询平台充分利用大数据平台提供的并行计算、自然语言处理、深度学习和知识图谱能力,来进行情报的收集和分析

5) 基础业务平台
基础业务平台的应用系统既是大数据平台的数据使用方、也是大数据平台的数据提供方、大数据平台会通过数据采集集工具获取这些应用系统的数据,补充到整个系统的原始资料库,同时也向应用系统提供全方位的数据查询、计算服务,以保证应用系统能获得整个民航安保相关数据的使用权限和大数据平台的数据处理能力。

6) 综合信息共享服务平台
综合信息共享服务平台中有大量的信息综合查询功能,其查询来源是大数据平台的上的各种要素库、主题库数据。

大数据平台需要提供较高的数据搜索、碰撞、提取效率,以支撑在海量数据中快速定位综合信息共享服务平台需要的数据。
大数据平台是为了人工智能和大数据分析而诞生的统一融合大数据平台,可以方便地运行于位于本地,云或是边缘的商业机器平台上;充分利用了存储,管理,进程来分析各种实时,关键,可靠性的数据;独一无二的设计符合工业生产级的要求,其容量能达到EB级规模;并且在数据的保护,加密,灾难恢复,安全达到非常好的等级;系统同时能处理不同的基于对象,图形,大小文件,表格,事件,存储块的巨量信息。我们同时会开源容器化的管理接口,确保分布式应用程序的无缝接入和在分布式环境下的可移植性。

平台包含了各种正向开发的分析工具,也有开源的工具如:Apache Hadoop, Apache Spark, Apache Drill, Apache Hive,Pentaho,Madlib等。 此外,领先的AI和 ML库也集成在同一平台上,为客户量身定制一站式的存储,计算,云服务,人工智能服务。