Java文件按行数切割分文件

Wesley13
• 阅读 634

由于在工作遇到了大文件无法导入公司的响应系统,就写了简单文件分割的方法来处理,日常记录一下,有什么不妥的地方希望同行留言指教。

/**  
 * @Title: FileCatTool.java
 * @Package com.lincomb.tool
 * @Description: 
 * TXT文件切割
 * @author lin.xu@lincomb.com
 * @date 2018年4月17日
 * @version V1.0  
 */

    
package com.lincomb.tool;

import java.io.File;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.RandomAccessFile;

/**
 * @ClassName: FileCatTool
 * @Description: 
 * TXT文件切割  按照行数读取  进行分割
 * @author lin.xu@lincomb.com
 * @date 2018年4月17日
 *
 */
public class FileCatTool {
    //字符集
    private static String Encoding = "UTF-8";
    //切割行数
    private static int CAT_LONG_NUM = 6000;
    //换行符
    private static String SPLIT_CHAR = "\n";
    private static String W_SPLIT_CHAR = "\r\n";
    
    
    public static void main(String[] args) {
        long statTime = System.currentTimeMillis();
        String filePath = "C:/Users/Administrator/Desktop/导数据文件/";
        String fileName = "周边游";
        StringBuffer bf = readTxt(filePath + fileName +".txt");
        catStrInfo(bf,fileName,filePath);
        long endTime = System.currentTimeMillis();
        System.out.println("共耗时:" + (endTime - statTime));
    }
    
    
    /**
     * @Title: readTxt
     * @Description: 
     * 读取文件中的信息到缓存中
     * @param path
     * @return
     * StringBuffer 返回值
     * @author lin.xu@lincomb.com
     * @throws
     */
    @SuppressWarnings("resource")
    public static StringBuffer readTxt(String path){
        StringBuffer stringBuffer = new StringBuffer();
        RandomAccessFile raf;
        try {
            File f = new File(path);
            raf = new RandomAccessFile(f, "r");
            byte[]  buff = new byte[(int)raf.length()];
            //用于保存实际读取的字节数
            int hasRead=0;
            //循环读取
            while ((hasRead=raf.read(buff)) > 0 ) {
                //打印读取的内容,并将字节转为字符串输入
                stringBuffer.append(new String(buff,0,hasRead,Encoding));
            }
            return stringBuffer;
        } catch (FileNotFoundException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
        return stringBuffer;
    }
    
    /**
     * @Title: catStrInfo
     * @Description: 
     * 进行文件流分割  6000为一个文件
     * @param str
     * void 返回值
     * @author lin.xu@lincomb.com
     * @throws
     */
    public static void catStrInfo(StringBuffer str,String fileName,String filePath){
        if(null != str){
            String[] rStrArry = str.toString().split(SPLIT_CHAR);
            if(null != rStrArry && rStrArry.length > 0){
                System.out.println("读取文件中的数据行数:" + rStrArry.length);
                StringBuffer wrSb = new StringBuffer();
                int n = 0;
                for(int i = 1 ; i <= rStrArry.length ; i++){
                    wrSb.append(rStrArry[i-1]).append(W_SPLIT_CHAR);
                    //当数据长度最大的时候进行开启线程
                    if(i == rStrArry.length){
                        StringBuffer goWrSb = wrSb;
                        //启动线程
                        WriteFileThread t = new WriteFileThread(goWrSb,n,fileName,filePath);
                        t.start();
                        //清空数据长度
                        wrSb = new StringBuffer();
                        n++;
                    }
                    //是倍数时进行开启线程处理
                    if(i%CAT_LONG_NUM == 0){
                        System.out.println("开启线程" + n);
                        StringBuffer goWrSb = wrSb;
                        //启动线程
                        WriteFileThread t = new WriteFileThread(goWrSb,n,fileName,filePath);
                        t.start();
                        //清空数据长度
                        wrSb = new StringBuffer();
                        n++;
                    }
                }
            }
        }
    }
    
    
}

/**
 * @ClassName: writeFileThread
 * @Description: 
 * 执行写文件
 * @author lin.xu@lincomb.com
 * @date 2018年4月17日
 */
class WriteFileThread extends Thread{
    //写入字符
    private StringBuffer wsbstr;
    //文件序号
    private int num;
    //文件名
    private String fileName;
    //文件路径
    private String filePath;
    
    public WriteFileThread(StringBuffer wsbstr, int num, String fileName,String filePath){
        this.wsbstr = wsbstr;
        this.num = num;
        this.fileName = fileName;
        this.filePath = filePath;
    }
    
    /* (非 Javadoc)
     * 
     * @see java.lang.Runnable#run()
     */ 
    @Override
    public void run() {
        try {
            File wf = new File(filePath+fileName+"_"+num+".txt");
            if(!wf.exists()){
                wf.createNewFile();
            }
            RandomAccessFile rFile = new RandomAccessFile(wf, "rw");
            byte[] b = wsbstr.toString().getBytes();
            long originLen = wf.length();
            rFile.setLength(originLen + b.length);
            rFile.seek(originLen);
            rFile.write(b);
            rFile.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
    
}
点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
待兔 待兔
3个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Wesley13 Wesley13
3年前
Java爬虫之JSoup使用教程
title:Java爬虫之JSoup使用教程date:201812248:00:000800update:201812248:00:000800author:mecover:https://imgblog.csdnimg.cn/20181224144920712(https://www.oschin
Wesley13 Wesley13
3年前
Java日期时间API系列31
  时间戳是指格林威治时间1970年01月01日00时00分00秒起至现在的总毫秒数,是所有时间的基础,其他时间可以通过时间戳转换得到。Java中本来已经有相关获取时间戳的方法,Java8后增加新的类Instant等专用于处理时间戳问题。 1获取时间戳的方法和性能对比1.1获取时间戳方法Java8以前
Easter79 Easter79
3年前
Twitter的分布式自增ID算法snowflake (Java版)
概述分布式系统中,有一些需要使用全局唯一ID的场景,这种时候为了防止ID冲突可以使用36位的UUID,但是UUID有一些缺点,首先他相对比较长,另外UUID一般是无序的。有些时候我们希望能使用一种简单一些的ID,并且希望ID能够按照时间有序生成。而twitter的snowflake解决了这种需求,最初Twitter把存储系统从MySQL迁移
Stella981 Stella981
3年前
Linux学习笔记:split切分文件并按规律命名及添加拓展名
基础知识功能:使用shell的split可以将一个大文件分割成很多个小文件,有时文件太大处理起来不方便就需要使用到了。在默认情况下将按照每1000行切割成一个小文件。语法:split<行数bclfile.txt参数说明:split
Wesley13 Wesley13
3年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
3年前
Docker 部署SpringBoot项目不香吗?
  公众号改版后文章乱序推荐,希望你可以点击上方“Java进阶架构师”,点击右上角,将我们设为★“星标”!这样才不会错过每日进阶架构文章呀。  !(http://dingyue.ws.126.net/2020/0920/b00fbfc7j00qgy5xy002kd200qo00hsg00it00cj.jpg)  2
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
9个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这