主要是大数据应用方向
早上第一个听了IBM 企业海量数据以及全面云数据服务实践,主要介绍 了IBM 云计算的应用场景,主要是介绍IBM 在云数据服务方面的应用,主要是分享了几个客户案例,其中一个是央视的西藏骑行的电视直播,中间涉及物理设备数据采集,背后实时的数据分析,结合地理位置 数据,地图以及运动员数据同时支持可视化,提升活动本身的参与性,整体全部基于IBM云服务来做。整个开发周期10天,可见IBM在解决方案级别的能力较强,其次主要介绍了IBM 的云服务。如下:

其次就是阿里巴巴的神盾介绍集团的风控平台,整体建设思路和蚂蚁的风控平台类似。



这里融合计算概念没有讲的很清楚,其次基于zk 做指标逻辑的动态更新,而不需要中断指标计算。
接下来主要是基于Elastic Stack 做的大数据多维分析。目前国内应用较多的大数据多维分析工具,一个是apache kylin 一个就是es。这里主要介绍如何应用es 做指标分析。

1)数据收集:logstash+beats
Logstash:在 server 端,处理传入的日志,采用pipeline 的模式过滤计算数据,不支持数据之间的聚合操作。
beats:在client端,用于采集各种情况下的日志,日志包括DB,redis,http,top,file,消息队列。
2)数据分析:elasticsearch
elasticsearch 可以作为OLAP引擎来用。
elasticsearch目前加入了很多聚合的功能,包括
a)支持一些数据分析功能,包括柱状图、分布、统计、地理
b)支持任何数据:只要数据能被查询,就可以被分析
c)按需计算和实时性:可以按需实时计算、实时性在秒左右
d)可嵌套组合
3)数据展现:kibana
kibana被用作数据展示工具,Web 界面,用来搜索和可视化日志。
现场看了一下es的演示,因为结合了可视化,数据采集以及数据清洗以及多维分析的能力,整体体验较为不错。
下午重点:
主要是携程推荐平台负责人介绍了携程推荐平台的介绍,核心点主要是rerank 以及abtest ,根据携程的业务特有的推荐特征筛选等等。


另外比较重要的就是阿里巴巴宗超介绍了集团在海量数据下数据研发体系的建设和管理,由于数据的暴增如何解决多样数据的规范化存储以及开发等等,核心观念如何统一数据资产以及工具研发体系的标准化。
快速、完全托管的TB/PB级数据仓库解决方案,向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。
欢迎加入MaxCompute钉钉群讨论