“智库2861”系统是一个中国全域的、数据的、神经反馈系统。它以互联网活动为输入、以AI算法生成的数据为输出、构建的中国GIS宏观大数据及其智能应用,由清华大学信息技术研究院与合作企业共同完成。 项目组成功地构建了中国第一个社会感知的大数据,(Data as a Service,简称DaaS),涵盖了国内全部2861个行政区县,以及细化到1平方公里的网格。系统的输出数据,不是互联网上的真假难辨的“数据“,而是由AI算法产生的数据,由算法确保数据的实时性和客观性,数据的含金量超过网络数据,在商业应用中具有不可比拟的优势价值。 DaaS目前面向政府机构、政策研究智库、高校智库、金融机构等开放,DaaS项目安装和试用下载地址:www.2861.wiki DaaS的特点: 1)、针对全国2861个区县、600多个城市、31个省市,独立建立完整的数据库(3600余个),每一个数据库对应一个行政主体。 2)、内容包括:宏观数据、人口、业态、产业等一千余项指标。数据按周和月实时更新,自动入库。 3)、建立完成中国每一平方公里网格的数据库(988万个),每一个网格的实时数据和统计项,反映人口流动、业态、和房价和租金、餐饮消费均价、密度和热度指标等,每日更新。 4)、所有数据是AI计算结果,每月自动生成。只要互联网在,这些AI算法就会不断生成新的当月数据,形成取之不尽的数据金矿。 系统分为四个部分: l 第一,输入数据的结构化处理。在输入数据的结构化方面,项目组团队历时五年,在全国以2861个区县为最小单元,按照每日、每月为单位构建结构化信息,以每一个单元单次存储格式的基本形式,形成约5.5万个统计项,从而形成各个区县、地市和省的GIS数据量。 l 第二,在NPU平台上以Tensor Flow为内核,构建了神经网络算法训练平台,其特点是用大量脚本和定制化约束来构建一个用户友好的操作,软件工程师能够快速应用平台训练算法。这个平台训练的算法已生成一千多个宏观指标。第一部分准备的输入数据,作为这些AI算法的输入,能够得到对应地域的输出数据,由此得到中国2861个区县的宏观数据。此外,根据地理,将中国划分为980万个以一平方公里为最小单元的网格,来构建各个网格的GIS数据作为输入,同样通过AI算法,得到每一个网格的输出数据。从而构建出区县GIS和公里网格GIS这两大类数据,加上时间维度和1000余个指数维度,形成一个多维立方体,维度多达1000x300x(2861个县+614个市)x980万平方公里的巨大维度,这些数据的运行和管理,已经实现完整地全自动脚本I/O和运算,无需人工维护。 l 第三,上述多维度的、GIS为基础的数据,完成了对于我国2861个区县的大数据神经反馈系统。从每一个区县产生和汇集的宏观信息,向上汇总得到各个市、省的宏观信息。在城区的每一公里网格,构建了基于网格的、关于人口、业态、热度、交通等大数据测算网格。这个系统的创新性特征是自带生态独立运行的统计系统。 l 第四,智能应用。区县大数据的神经反馈系统,以及公里网格的数据架构,是构建全域监测的基础,可以发展很多独立的、客观的应用。例如,某合作项目是以全国全域为对象的相关宏观指标的反馈和预警系统。独自拥有这些数据,在区县和网格中反映数据,仅仅是展示区县数据作为神经单元的数据构成而已,是大材小用。本项目本着开放合作的精神,面向各种专家提供数据服务,为专家们在各自领域中构建面向全国全域的、全自动的采样系统、检测评估系统和问题预判系统,提供基础数据和工具平台。 大数据驱动新型智库等系列区域性智慧大脑综合应用。以区域治理和增长点为突破口,通过全覆盖、细粒度、强实时、超高速、高可信的大数据处理、分析和挖掘,探索基于互联网感知的民生民情各项指标的内在规律,及其与各地社会经济发展的关键指标之间的关系,如人口、经济、收入、GDP、人均GDP等数据耦合关系与规律。 本项目可解决如下社会痛点: l 痛点一:新矛盾指数衡量缺多维综合量化,党的十九大之前通常单一GDP指标就可以衡量一个区域的发展,党的十九大之后提出的新矛盾指数衡量,需要同时考虑经济、人口,环境、稳定、民生、城市建设等多个方面,单靠一个指标无法反映一个区域的实际发展情况。因此,本系统按2861(县)+614(市)+31(省)级别的地理区域建立宏观经济多维立方体,实现每一个区县的1000余项宏观指标的自动测算和预判。 l 痛点二:智库缺新视角,未来的智库须提供新视角,来看现实的世界,而不是受限于智库专家的个人经验、思维和水平。要像国际顶级智库那样用大数据驱动,以互联网感知大数据的历史和实时状态作为研究的基础,支持决策者探索数据空间,对于所研究的问题不仅有结论,更能启发思考,让其自获新认知。 l 痛点三:缺“一把手”专用数据,地方政府一把手时间少,传统书面报告局部清晰、全局模糊、容易被细节淹没,数据更新不够实时性,对比维度缺纵横交错的时空分析。 l 痛点四:缺互联网感知数据,对互联网世界发生的实时情况缺乏把握和判断的辅助工具,获取、整理、提取和可视化都缺乏高效精准的完善支撑,导致很多风险预判和关键决策错失先机。 |