SPARK中文峰会(二)上海会场预告|Ray On Spark

Stella981
• 阅读 714

本周六下午,上海会场的讲师已经准备就绪~

SPARK + AI SUMMIT 2020 中文精华版线上峰会,十四位来自北京、上海、杭州、硅谷的PMC和意见领袖,一一还原英文现场的经典分享。

除 Databricks、Facebook、阿里巴巴、Intel 、领英等一线厂商的经典应用场景外,还有Ray、SQL、Structured Streaming、 MLflow、Koalas、K8s、Delta lake、Photon等新奇议题及社区生态的最新落地。

点击下文了解详细议程

我们欠国内Spark开发者的,用一场掷地有声的中文峰会来还


7月4日下午议题:

SPARK中文峰会(二)上海会场预告|Ray On Spark
SPARK中文峰会(二)上海会场预告|Ray On Spark
SPARK中文峰会(二)上海会场预告|Ray On Spark
SPARK中文峰会(二)上海会场预告|Ray On Spark
SPARK中文峰会(二)上海会场预告|Ray On Spark
SPARK中文峰会(二)上海会场预告|Ray On Spark


使用 RayOnSpark 在大数据平台上运行新兴的人工智能应用

黄凯
Intel 大数据团队软件工程师。负责开发基于 Apache Spark 的数据分析和 AI 平台,同时支持企业客户在大数据平台上构建端到端的深度学习应用。他是大数据和 AI 开源项目 Analytics Zoo 和 BigDL 的核心贡献者之一。

随着近几年AI的快速发展,把新兴的人工智能技术基于大量生产数据去实际落地的场景和需求也越来越多。Ray是由UC Berkeley RISELab开源的一个能快速和方便构建新兴人工智能应用的框架。但我们发现在生产环境中,直接把Ray的程序部署运行在大数据的集群上并不是一件容易的事,常用的做法会需要两个不同的集群去分别运行大数据的应用和人工智能的应用,这样会增加许多数据传输以及集群维护的开销。而利用我们开发的 RayOnSpark 功能,用户能直接在现有的 Apache Hadoop/YARN 集群上运行各种新兴的AI应用,包括分布式神经网络训练、可扩展的 AutoML 用于时序预测以及分布式的强化学习等等。本次分享主要为大家介绍开发 RayOnSpark的初衷、实现细节和实际的应用案例。


将基于Ray的可扩展AutoML用于时序预测

黄晟盛
Intel 大数据和 AI 方向的资深软件架构师,在大数据领域工作超过10年,在AI领域工作超过5年。她是 Apache Spark 的committer 和 PMC member,也是 Big Data + AI 开源项目Analytics-Zoo 和 BigDL 的重要贡献者。目前,她在 Intel AnalyticsZoo 团队主要带领自然语言处理,时序分析和强化学习相关的新功能开发和解决方案构建。

时序预测在现实中有着很广泛的应用,如通讯网络质量分析、数据中心日志分析、高价值设备维护等。虽然传统方法在时序预测中仍然占据主导地位,机器学习和深度学习正成为新的趋势。然而构建机器/深度学习应用是一个费力且需要大量专业知识的过程,为了给我们的用户提供更易用的时序预测工具,我们基于Ray构建了一个分布式AutoML的框架用于自动化时序预测模型的训练。在这个演讲中我们将分享我们的工作以及真实的应用案例和经验总结。


Apache Spark 3.0 中的 SQL 性能改进概览

李呈祥
花名司麟,阿里云智能EMR团队高级技术专家,Apache Hive Committer, Apache Flink Committer,目前主要专注于EMR产品中开源计算引擎的优化工作。

Spark 3.0提供了很多新的性能优化,例如dynamic partition pruning和enhanced pushdown,每个优化可能会对某一类型的SQL有较好的效果。由于新特性数量众多,用户很难一一深入理解,本次议题主要使用示例介绍这些特性,并解释其背后的原理以及如何使用提高查询性能。


using databricks as an analysis platform

章剑锋
花名简锋,开源界老兵,Apache Member,曾就职于 Hortonworks,目前在阿里巴巴计算平台事业部任高级技术专家,并同时担任 Apache Tez、Livy 、Zeppelin 三个开源项目的 PMC ,以及 Apache Pig 的 Committer。

过去一年,YipitData 开始将将自己所有的data pipeline迁移到Databricks的spark平台。现在Databricks平台已经帮助YipitData的40多位数据分析师来做数据收集,管理ETL workfow。YipitData的数据分析师可以在无需数据工程师的帮助下自己独立的管理端到端的data pipeline,包括管理1700多个database,51000张table。
这次的演讲会主要讲述YipitData基于Databricks的底层数据架构以及数据分析师如何用PySpark来管理自己的workflow。在YipitData,我们逐步改进抽象我们的data pipeline使得我们的数据分析师可以更加简单安全的做数据转换,存储和清洗。
此外这次演讲还会讲述我们如何将Airflow整合到Databricks中,使得分析师可以构建健壮的ETL workflow。系统管理员和工程师可以学习到如何利用Databricks平台和Airfow来发现潜在的优化点和创造业务价值。


自适应查询执行:在运行时加速Spark SQL

王道远
花名健身,阿里云EMR技术专家,Apache Spark活跃贡献者,主要关注大数据计算优化相关工作。

长期以来,Spark社区一直在持续优化 Spark SQL,希望能生成更高质量的执行计划。基于代价模型的优化收集数据的各种统计信息来优化执行计划,比如选择更合适的join算法,或是调整join顺序。但是,统计信息可能不是始终保持最新,错误的统计信息有可能导致选取较差的执行计划。Spark 3.0新引入的自适应查询执行优化,会在运行时根据执行过程中收集到的统计信息,重新优化调整执行计划。本议题会介绍自适应查询执行的整体框架,以及自适应查询针对以往实际使用Spark过程中遇到的一些常见问题的解法。我们会用一些查询的例子来展示自适应查询背后的原理。最后,我们会分享使用自适应查询执行功能在TPC-DS上测出来的性能提升。


Spark“数字人体”AI挑战赛赛题解析一 Analytics-Zoo 入门

邱鑫
邱鑫,英特尔高级软件工程师。BigDL 和Analytics Zoo 的核心贡献者。

本次直播将培训Spark天池大赛的选手使用英特尔Analytics-Zoo 平台


推荐阅读

Spark中文峰会议题(一)|Apache Spark 3.0简介:回顾过去的十年,并展望未来


钉钉群同步直播,欢迎钉钉扫码加入Apache Spark中国技术交流社区!
SPARK中文峰会(二)上海会场预告|Ray On Spark

对开源大数据和感兴趣的同学可以加小编微信(下图二维码,备注“进群”)进入技术交流微信群。
SPARK中文峰会(二)上海会场预告|Ray On Spark

Apache Spark技术交流社区公众号,微信扫一扫关注
SPARK中文峰会(二)上海会场预告|Ray On Spark

本文分享自微信公众号 - Apache Spark技术交流社区(E-MapReduce_Spark)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
待兔 待兔
4个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Stella981 Stella981
3年前
KVM调整cpu和内存
一.修改kvm虚拟机的配置1、virsheditcentos7找到“memory”和“vcpu”标签,将<namecentos7</name<uuid2220a6d1a36a4fbb8523e078b3dfe795</uuid
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
3年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
3年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
10个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这