SpringBatch系列之并发并行能力

Stella981
• 阅读 753

1、概要

大多数任务都能够通过简单的单进程单线程任务处理好,但是还有一大部分现实诉求无法满足。批量任务存在两种并行模式

  • 单进程、多线程
  • 多进程

我们也可以细分为

  • 多线程Step(单进程) Multi-thread Step
  • 并行Step(单进程) Parallel Steps
  • 对Step进行远程分块(多进程)Remote Chunking of Step
  • 对Step进行分区 Partitioning a Step

今天我们将通过两个例子来解释多线程和并行任务...目前还仅限于单进程模式,后面会继续通过示例的方式说明多线程模式

2、开启并发并行之旅

项目依赖就不多说了,在之前的入门文章中已经说明。但是我们还需要添加如下两个依赖

<!-- https://mvnrepository.com/artifact/com.thoughtworks.xstream/xstream -->
<dependency>
      <groupId>com.thoughtworks.xstream</groupId>
      <artifactId>xstream</artifactId>
      <version>1.4.12</version>
</dependency>

        <!-- https://mvnrepository.com/artifact/org.springframework/spring-oxm -->
<dependency>
       <groupId>org.springframework</groupId>
        <artifactId>spring-oxm</artifactId>
</dependency>

2.1 准备脚本

create table TRANSACTION
(
    ACCOUNT   varchar(32) null,
    AMOUNT    decimal     null,
    TIMESTAMP datetime    null
);

我们创建了一张表,用于储存文件中的数据。

2.2、准备CSV数据

5113971498870901,-546.68,2018-02-08 17:46:12
4041373995909987,-37.06,2018-02-02 21:10:33
3573694401052643,-784.93,2018-02-04 13:01:30
3543961469650122,925.44,2018-02-05 23:41:50
....

2.3、准备XM文件

<transactions>
    <transaction>
        <account>633110684460535475</account>
        <amount>961.93</amount>
        <timestamp>2018-02-03 18:30:51</timestamp>
    </transaction>
    <transaction>
        <account>3555221131716404</account>
        <amount>759.62</amount>
        <timestamp>2018-02-12 20:02:01</timestamp>
    </transaction>
    <transaction>
        <account>30315923571992</account>
        <amount>648.92</amount>
        <timestamp>2018-02-12 23:16:45</timestamp>
    </transaction>
    ......
</transactions>

2.4、多线程Step

最简单开启spring batch并发处理能力的办法就是将TaskExecutor添加到Step的配置中,如下

@Configuration
public class MultiThreadJobConfiguration extends BaseJobConfiguration {

    public FlatFileItemReader<Transaction> fileTransactionReader() {
        Resource resource = new FileSystemResource("csv/bigtransactions.csv");
        return new FlatFileItemReaderBuilder<Transaction>()
                .saveState(false)
                .resource(resource)
                .delimited()
                .names(new String[]{"account", "amount", "timestamp"})
                .fieldSetMapper(fieldSet -> {
                    Transaction transaction = new Transaction();
                    transaction.setAccount(fieldSet.readString("account"));
                    transaction.setAmount(fieldSet.readBigDecimal("amount"));
                    transaction.setTimestamp(fieldSet.readDate("timestamp", "yyyy-MM-dd HH:mm:ss"));
                    return transaction;
                })
                .build();
    }

    @Bean
    @StepScope
    public JdbcBatchItemWriter<Transaction> writer(@Qualifier("dataSource") DataSource dataSource) {
        return new JdbcBatchItemWriterBuilder<Transaction>()
                .dataSource(dataSource)
                .beanMapped()
                .sql("INSERT INTO TRANSACTION (ACCOUNT, AMOUNT, TIMESTAMP) VALUES (:account, :amount, :timestamp)")
                .build();
    }

    @Bean("multithreadedJob")
    public Job multithreadedJob() {
        return this.jobs.get("multithreadedJob")
                .start(step1())
                .build();
    }

    @Bean
    public Step step1() {
        ThreadPoolTaskExecutor taskExecutor = new ThreadPoolTaskExecutor();
        taskExecutor.setCorePoolSize(4);
        taskExecutor.setMaxPoolSize(4);
        taskExecutor.afterPropertiesSet();

        return this.steps.get("multithreadedStep")
                .<Transaction, Transaction>chunk(1000)
                .reader(fileTransactionReader())
                .writer(writer(null))
                .taskExecutor(taskExecutor)
                .build();
    }
}

以上代码说明,我们分了4个线程,read和writer按照每块1000条数据执行。使用我当前的Intel® Core™ i5-3210M CPU @ 2.50GHz × 4 机器读取60000万条数据并且落地花费时间1分半钟。调整chunk大小,经过测试也会发现对于性能也存在一定的影响,实际生产环境中使用需要调整优化chunk大小。

2.5、并行Step

并行的代码看起来稍微复杂一点,个人理解并行任务和多线程并发任务没有本质区别,只是区别于不同的业务场景,并行任务区别于并发任务关键在于并行任务将一个大任务拆分为多个Flow,一个Flow可以串联多个Flow,一个Flow可以包含多个Step.下面是一个例子,并行读取两个文件,一个csv文件,一个xml文件。

@Configuration
public class ParallelJobConfiguration extends BaseJobConfiguration {

    @Bean
    @StepScope
    public FlatFileItemReader<Transaction> fileTransactionReader() {
        Resource resource = new FileSystemResource("data/csv/bigtransactions.csv");
        return new FlatFileItemReaderBuilder<Transaction>()
                .saveState(false)
                .resource(resource)
                .delimited()
                .names(new String[]{"account", "amount", "timestamp"})
                .fieldSetMapper(fieldSet -> {
                    Transaction transaction = new Transaction();
                    transaction.setAccount(fieldSet.readString("account"));
                    transaction.setAmount(fieldSet.readBigDecimal("amount"));
                    transaction.setTimestamp(fieldSet.readDate("timestamp", "yyyy-MM-dd HH:mm:ss"));
                    return transaction;
                })
                .build();
    }

    @Bean
    @StepScope
    public StaxEventItemReader<Transaction> xmlTransactionReader() {
        Resource resource = new FileSystemResource("data/xml/bigtransactions.xml");
        Map<String, Class> map = new HashMap<>();
        map.put("transaction", Transaction.class);
        map.put("account", String.class);
        map.put("amount", BigDecimal.class);
        map.put("timestamp", Date.class);
        XStreamMarshaller marshaller = new XStreamMarshaller();
        marshaller.setAliases(map);
        String[] formats = {"yyyy-MM-dd HH:mm:ss", "yyyy-MM-dd"};
        marshaller.setConverters(new DateConverter("yyyy-MM-dd HH:mm:ss", formats));

        return new StaxEventItemReaderBuilder<Transaction>()
                .name("xmlFileTransactionReader")
                .resource(resource)
                .addFragmentRootElements("transaction")
                .unmarshaller(marshaller)
                .build();
    }

    @Bean
    @StepScope
    public JdbcBatchItemWriter<Transaction> jdbcBatchItemWriter(@Qualifier("dataSource") DataSource dataSource) {
        return new JdbcBatchItemWriterBuilder<Transaction>()
                .dataSource(dataSource)
                .beanMapped()
                .sql("INSERT INTO TRANSACTION (ACCOUNT, AMOUNT, TIMESTAMP) VALUES (:account, :amount, :timestamp)")
                .build();
    }


    @Bean("parallelJob")
    public Job parallelStepsJob() {

        return this.jobs.get("parallelJob")
                .start(parallelFlow())
                .end()
                .build();
    }

    @Bean
    public Flow parallelFlow() {
        return new FlowBuilder<Flow>("parallelFlow")
                .split(new SimpleAsyncTaskExecutor())
                .add(flow1(), flow2())
                .build();
    }

    @Bean
    public Flow flow1() {
        return new FlowBuilder<Flow>("flow1")
                .start(step1())
                .build();
    }

    @Bean
    public Flow flow2() {
        return new FlowBuilder<Flow>("flow2")
                .start(step2())
                .build();
    }

    @Bean("xmlStep")
    public Step step1() {
        return this.steps.get("xmlStep")
                .<Transaction, Transaction>chunk(1000)
                .reader(xmlTransactionReader())
                .writer(jdbcBatchItemWriter(null))
                .build();
    }

    @Bean("fileStep")
    public Step step2() {
        return this.steps.get("fileStep")
                .<Transaction, Transaction>chunk(1000)
                .reader(fileTransactionReader())
                .writer(jdbcBatchItemWriter(null))
                .build();
    }

2.6、运行任务

# 执行多线程任务
curl http://localhost:8080/launchMultiThreadjob

# 执行并行任务
curl http://localhost:8080/launchParallelJobjob

# 或者通过浏览器打开上面的地址

3、参考文档

4、源码

https://github.com/cattles/fucking-great-springbatch

SpringBatch系列之并发并行能力

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
待兔 待兔
6个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Wesley13 Wesley13
3年前
java多线程面试题_线程并发面试题
1、什么是线程?线程是操作系统能够进行运算调度的最小单位,它被包含在进程之中,是进程中的实际运作单位。程序员可以通过它进行多处理器编程,你可以使用多线程对运算密集型任务提速。比如,如果一个线程完成一个任务要100毫秒,那么用十个线程完成改任务只需10毫秒。2、线程和进程有什么区别?线程是进程的子集,一个进程可以有很多线程,每条线程并行执行不
Wesley13 Wesley13
3年前
4、jstack查看线程栈信息
1、介绍利用jps、top、jstack命令找到进程中耗时最大的线程,以及线程状态等等,同时最后还可以显示出死锁的线程查找:FoundoneJavaleveldeadlock即可1、jps获得进程号!(https://oscimg.oschina.net/oscnet/da00a309fa6
Stella981 Stella981
3年前
SpringBatch系列之Remote
1、概要前面的文章介绍了SpringBatch并发并行的批处理能力,但是还不够,单台机器的性能终归有极限,因此我们有些场景就可以考虑使用多台机器来处理。本文我们将介绍remotechunking,第一篇简单介绍SpringBatch多机器处理披露任务的能力。2、什么是remotechunking
Stella981 Stella981
3年前
Noark入门之线程模型
0x00单线程多进程单线程与单进程多线程的目的都是想尽可能的利用CPU,减少CPU的空闲时间,特别是多核环境,今天咱不做深度解读,跳过...0x01线程池锁最早的一部分游戏服务器是采用线程池的方式来处理玩家的业务请求,以达最大限度的利用多核优势来提高处理业务能力。但线程池同时也带来了并发问题,为了解决同一玩家多个业务请求不被
Wesley13 Wesley13
3年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Wesley13 Wesley13
3年前
Oracle一张表中实现对一个字段不同值和总值的统计(多个count)
需求:统计WAIT\_ORDER表中的工单总数、未处理工单总数、已完成工单总数、未完成工单总数。表结构:为了举例子方便,WAIT\_ORDER表只有两个字段,分别是ID、STATUS,其中STATUS为工单的状态。1表示未处理,2表示已完成,3表示未完成总数。 SQL:  1.SELECT   2
Wesley13 Wesley13
3年前
Java 并发编程:进程、线程、并行与并发
一谈到Java并发编程,我们一般就会联想起进程、线程、并行、并发等等概念。那么这些概念都代表什么呢?进程与线程有什么关系?并发与并行又是什么关系呢?进程与线程进程是指程序的一次动态执行过程,通常我们说计算机中正在执行的程序就是进程,每个程序都会对应着一个进程。一个进程包含了从代码加载到执行完成的一个完整过程,它是操作系统资源分配最小单
Wesley13 Wesley13
3年前
Selenium2 Python 自动化测试实战学习笔记(八)
Python多线程分布式和并行是完全不同的概念,分布式只负责将一个测试脚本可调用不同的远程环境来执行;并行强调“同时”的概念,它可以借助多线程或多进程技术并行来执行脚本技术。10.1单进程的时代        在单线程的时代,当处理器要处理多个任务时,必须要对这些任务排一下执行顺序并按照这个顺序