大数据在中国的应用已近十年,但对应用的深入思考却没有跟上。想象一下大数据在统计分析模式下的应用,会影响其他领域在信息获取方向的应用创新。本文将从信息获取、网络服务和数据整合三个方向探讨大数据的应用,拓宽应用视野。
一、信息获取的大数据应用。
1.1信息获取和知识发现。
大数据最发人深省的应用是信息获取,通常被认为是统计分析模式的延伸。由维克多·迈耶-勋伯格和肯尼斯·库克耶共同撰写的《大数据时代》从信息获取和知识发现的角度提出了大数据应用带来的创新:第一,用全部数据代替抽样数据;第二,允许数据混合而不是精确;第三,关注相关性而不是因果关系。大数据创新开辟了知识发现的新思路,促进了科学研究的发展。
1.2政府决策的大数据应用。
大数据在知识发现方面的优势使得政府有了利用大数据实现科学决策的想法。决策是领导者的行为,但人脑无法直接利用大数据进行决策。数据中包含的内容经过浓缩和理解后才能成为人脑中的信息,与人脑中的其他字母一起参与决策。数据挖掘和统计分析将数据内容进行浓缩,形成易于人脑理解的信息内容,数据中包含的信息应该通过人脑在决策中发挥作用。
1.3政府大数据应用的局限性。
大数据的应用并不能显著提升政府决策,否则,政府大数据决策的案例集不会长期编制。政府决策和大数据应用存在两大难点:
首先,缺乏适用的数据源。政府本身没有太多大数据资源,适合即时决策问题的外部大数据极难遇到;
第二,国际形势、重大事件、管理能力、社会文化等许多重要信息难以数字化,政府仅靠数据决策将非常片面。
1.4大数据适合特定领域的决策。
大数据主要来源于特定的业务渠道,渠道的局限性使得大数据获取的信息具有相应的局限性。因此,大数据不适合大规模决策,也无助于政府的宏观决策。然而,在微应用中会有很多成功的应用,比如案例检测。电商企业往往利用积累的业务数据分析用户需求,根据客户的浏览内容推荐新产品和服务。
二是智能网络服务的大数据应用。
2.1智能网络服务也是大数据应用。
如果大数据仅限于信息获取应用,它对服务的贡献将被忽略。产生大数据的业务本身就是一个更基础的大数据应用。谷歌、百度、阿里巴巴、腾讯、亚马逊等公司是大数据企业,电信运营商、银行也是大数据企业。他们的大数据应用不同于信息获取应用,他们关注的是提供服务效率,而不是知识获取。智能网络服务的大数据应用系统直接对数据进行操作,无需提取信息。
2.2智能网络服务直接使用数据。
大数据智能网络服务系统直接处理数据,为用户提供服务结果。这种服务通过计算机流程自动处理数据,系统完全按照数据运行。没有人脑的参与,可以达到极高的处理速度,保证处理结果的一致性不受操作者的影响。
2.3智能服务的数据资源是动态数据流。
信息采集的大数据应用是一次性操作,数据是静态的。信息一旦获取,就会被人脑处理,计算机的任务也就完成了。智能网络服务是一项持续不断的业务。只要用户需要系统响应,移动支付系统就需要持续工作,保证支付的及时性。电信运营商的业务停不下来,他们的数据来源于手机不断向基站发送连接信号。连续业务需要连续的数据源,智能网业务处理的数据在业务中实时生成,是一个连续的数据流。
2.4云平台数据资源让服务智能化。
智能网络服务需要来自用户的服务需求数据,也需要预先存储的数据资源。谷歌和百度需要收集网站数据供用户查询。地理导航系统需要地图数据来根据用户的实时位置计算导航路线。该系统可以利用云平台上存储的大量知识资源,云提供的高速网络系统和知识资源使网络服务更加强大,将普通网络服务升级为智能网络服务,智慧城市中的网络服务也是智能网络服务。
第三,大数据应用的数据整合。
3.1政府大数据概念的适应。
政府对大数据的概念与专家不同。专家认为,常规信息技术无法处理的规模数据是大数据,所以政府没有大数据。认为政府各部门收集的数据都是大数据,政府把大数据的概念变成了数据集成的概念,这样政府才能做好大数据工作。但是,《大数据时代》提出的大数据概念已经不适合这种灵活应用,需要用数据集成的思维模式来推动政府对大数据的灵活应用。
3.2政府业务数据管理和服务的特点。
政府日常工作中最重要的数据是各部门的业务管理数据,各部门需要收集和积累自己业务管理和执行记录的数据。政务业务数据处理是对当事人或事项的准确处理,是下一步管理操作的基础。业务数据不可替代。
3.3数据整合提升政府精细化管理能力。
未来十年电子政务工作的重点是实现政务业务的精细化管理,数据集成是实现精细化管理的重要手段。政府的信息管理能力取决于数据的完整性和现场调用能力,调用太晚的数据意味着没有数据。现场管理人员和用户之间的信息不对称会影响服务效率,增加上当受骗的机会。数据集成类似于数据库建设,实现各部门数据的语义统一,优化数据组织,提高相关数据的调用速度,实现数据及时提供给现场工作人员,充分发挥数据的整体优势。
3.4数据整合提高政府公共服务效率。
各地政府提出了“只跑一次”“一网跑”的目标,旨在节省用户时间。跨部门数据调用的速度是提高服务效率的关键。数据整合可以提高跨部门数据调用的流畅性和公共服务的终极效率。
3.5数据集成和信息共享不能混为一谈。
区别对待数据整合和信息共享是提高政府数据使用效率的重要环节。数据集成的目标是提高政府业务运营效率,目标明确,容易得到结果。数据集成应该是面向应用的,迫切的需求应该先做,提高效率。
信息共享的目的是获取支持决策和研究的信息。数据挖掘往往需要调用整个数据集。信息共享需要使用整个数据集。数据集成调用是对特定数据的准确调用。这两个应用程序非常不同,不应该共享一个平台。
四.对政府大数据中心的建议。
4.1大数据中心可持续发展的关键是效率。
决策者要认真考虑大数据中心的可持续运行,否则很容易出马。可持续生存的关键是经济理性,生存的总收益大于总成本。大数据中心普遍存在的问题是想做很多事情,但是具体的效益目标不明确。很多项目的效益假设都是基于随大流的假设,这是盲目的,失败率很高。寻求可靠的服务项目是大数据中心生存的关键。
4.2着力提升政府精细化管理。
政府管理和服务的精细化是未来十年的中心任务。关键是整合政府业务数据,提高基层工作者的现场工作效率,提升公众和政府部门的满意度。大数据中心可以努力支持政府领导决策,但重点是提高基层工作效率,而不是决策分析。基层工作的改进容易见效,但决策分析很难让领导满意。
4.3不要盲目收集数据。
过多的数据将成为负担,消耗设施资源和管理精力。没有应用方向就不用忙着收集数据,更不用指望有人分享信息。互联网时代,数据资源已经过剩,有效的应用目标是稀缺的数据应用资源。
4.4从数据集成最有效的应用开始。
政府数据整合可以在提高基层服务效率方面发挥更重要的作用,信息技术改善运营的效果明显高于改善决策。数据整合可以根据数据合作圈逐步推进。先做利用率高的数据集成,利用率低的数据集成要不要做。快速行军是没有必要的。在尖端使用优质钢材是一个好计划。
4.5开放的大数据中心更为重要。
大数据中心要推动政府数据向社会开放,数据开放是增加公众获得感的重要内容。高公众支持率可以直接提升大数据中心存在的价值。开放大数据中心可以与企业合作,订购企业的可视化产品,支持政府工作。将大数据中心打造成为政府和社会共享的可视化数据展示平台将会非常受欢迎。社会影响力越大,大数据中心的生命力就越强。