Apache Hudi每周社区动态更新(2020.01.28

Stella981
• 阅读 561

Apache Hudi社区周更新

2020.01.28 ~ 2020.02.03 Apache Hudi社区更新,包括开发、特性、改进、测试方面内容,本周社区主要工作是发布0.5.1版本,也包括一些技术文档的补充和更新。

开发

[Release] Apache Hudi(incubating) 0.5.1版本已经发布,0.5.1-incubating-rc1已经在general邮件列表review并且已经投票通过,所有关于0.5.1版本的release信息可以参考页面 [1] [Disscussion] 基于现在很多是直接使用HoodieSparkSource写入Hudi,因此想移除HoodieWriteClient,由于现在DataSource和DeltaStreamer都是基于HoodieWriteClient写入Hudi,因此暂时还无法删除 [2]

[1]https://lists.apache.org/thread.html/r00a103880bc2722ed9b5d729b4cea06ad0d45fe2abb1eaf7b2f59f71%40%3Cdev.hudi.apache.org%3E\[2\]https://lists.apache.org/thread.html/rbd77e7e95aa31a6813c096f5473d27528b5e86b5e1712e48f5bef8eb%40%3Cdev.hudi.apache.org%3E

特性

[Hudi DAG] 为Hudi Spark任务的DAG stage定义名字,添加更友好的描述信息,以便更好理解Hudi的各阶段 [3]

[3] https://issues.apache.org/jira/browse/HUDI-92

改进

[Spark Integration] 通过maven-shade-plugin来Relocate spark-avro依赖,这样会 使得启动spark-shell来使用hudi更为简洁 [4] [Utilities] 改进scala-2.12版本编译的步骤,现在是参考spark借助change-scala-version.sh脚本来编译scala-2.12 [5]

[4] https://issues.apache.org/jira/browse/HUDI-584 [5] https://issues.apache.org/jira/browse/HUDI-585

测试

[Unit Test] 改善org.apache.hudi.common.table.HoodieTimeline的单元测试,并且为HoodieTimeline, HoodieDefaultTimeline和HoodieActiveTimeline添加新的测试用例 [6] [Testing] 在huditestsuite_refactor分支上升级了spark版本并且修复了一些测试失败,这是由于Avro依赖是Spark内置模块依赖导致 [7] [Jacoco Coverage] 修复在运行单元测试后生成的jacoco报告覆盖率,主要是将surefire插件argLine移至属性 [8] [Test Coverage] 增加HoodieReadClient测试覆盖率,为方法增加测试用例,从45%的覆盖率提升到98%的覆盖率 [9]

[6] https://issues.apache.org/jira/browse/HUDI-566 [7] https://issues.apache.org/jira/browse/HUDI-587 [8] https://issues.apache.org/jira/browse/HUDI-591 [9] https://issues.apache.org/jira/browse/HUDI-594

Apache Hudi每周社区动态更新(2020.01.28

Apache Hudi每周社区动态更新(2020.01.28

Apache Hudi每周社区动态更新(2020.01.28

本文分享自微信公众号 - ApacheHudi(ApacheHudi)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
待兔 待兔
2个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Stella981 Stella981
2年前
Apache Hudi每周社区动态更新(2020.01.20
ApacheHudi社区周更新2020.01.20~2020.01.27ApacheHudi社区更新,包括开发、特性方面内容,本周社区主要工作在准备发布0.5.1incubatingrc1,包括一些技术文档的补充和更新。开发\Release\Hudi0.5.1incubatingRC1已经进入投票阶段,并且在社区
Stella981 Stella981
2年前
DOIS 2019 DevOps国际峰会北京站来袭~
DevOps国际峰会是国内唯一的国际性DevOps技术峰会,由OSCAR 联盟指导、DevOps时代社区与高效运维社区联合主办,共邀全球80余名顶级专家畅谈DevOps体系与方法、过程与实践、工具与技术。会议召开时间:2019070508:00至2019070618:00结束会议召开地点:北京主办单位:DevOps
Wesley13 Wesley13
2年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
2年前
Apache Hudi每周社区动态更新(2020.03.08
2020.03.08~2020.03.15ApacheHudi社区更新,包括开发、特性、缺陷修复及测试方面内容。开发\Release\0.5.2incubatingrc1已经释出并且已经完成了dev@邮件列表的投票,有望最近正式释出新版本\1\\Metrics\关于将Hudimetrics相关的代码移动hu
Wesley13 Wesley13
2年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
7个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这