Linux学习笔记:split切分文件并按规律命名及添加拓展名

Stella981
• 阅读 893

基础知识

功能:使用 shellsplit 可以将一个大文件分割成很多个小文件,有时文件太大处理起来不方便就需要使用到了。

在默认情况下将按照每1000行切割成一个小文件。

语法

split [-<行数>][-b][-c][-l] file.txt

参数说明

split [-bl] file [prefix] -a 5 -d
-b -- bytes=size 对file进行切分 每个小文件大小为size 可以指定单位b,k,m
-l -- lines=number 对file进行切分 每个文件都有number行
-a 5 后缀长度
-d 数字后缀
-c <字节> : 与参数"-b"相似,但是在切割时将尽量维持每行的完整性
prefix 分割后产生的文件名前缀

实例

实例一

使用指令 split 将文件 file.txt 每6行切割为一个文件,输入:

split -6 file.txt
-rw-r--r-- 1 root root 27 Nov 13 09:32 file.txt
-rw-r--r-- 1 root root 12 Nov 13 09:32 xaa
-rw-r--r-- 1 root root 15 Nov 13 09:32 xab

实例二

假设要切分的文件为 file.txt 大小为 109M 3192043行。

  1. 按行数切割

    split -l 1000000 file.txt ## 按每个文件一百万行进行切割 -rw-r--r-- 1 root root 113209645 Sep 2 11:04 file.txt -rw-r--r-- 1 root root 35466488 Sep 2 15:46 xaa -rw-r--r-- 1 root root 35465970 Sep 2 15:46 xab -rw-r--r-- 1 root root 35465632 Sep 2 15:46 xac -rw-r--r-- 1 root root 6811555 Sep 2 15:46 xad

生成xaa、xab、xac、xad等4个文件。

  1. 按大小切割

    split -b 20m file.txt ## 按每个文件20m的大小进行切割 -rw-r--r-- 1 root root 113209645 Sep 2 11:04 file.txt -rw-r--r-- 1 root root 20971520 Sep 2 15:47 xaa -rw-r--r-- 1 root root 20971520 Sep 2 15:47 xab -rw-r--r-- 1 root root 20971520 Sep 2 15:47 xac -rw-r--r-- 1 root root 20971520 Sep 2 15:47 xad -rw-r--r-- 1 root root 20971520 Sep 2 15:47 xae -rw-r--r-- 1 root root 8352045 Sep 2 15:47 xaf

生成多个文件,每个大小为20M。

  1. 添加前缀切割

    split -b 50m file.txt example -rw-r--r-- 1 root root 52428800 Sep 2 15:49 exampleaa -rw-r--r-- 1 root root 52428800 Sep 2 15:49 exampleab -rw-r--r-- 1 root root 8352045 Sep 2 15:49 exampleac

  2. 更改命名

    split -l 1000000 file.txt -d -a 3 url_ -rw-r--r-- 1 root root 35466488 Sep 2 16:11 url_000 -rw-r--r-- 1 root root 35465970 Sep 2 16:11 url_001 -rw-r--r-- 1 root root 35465632 Sep 2 16:11 url_002 -rw-r--r-- 1 root root 6811555 Sep 2 16:11 url_003

说明:

  • -l 按行分割
  • -d 添加数字后缀
  • -a 3 表示用3位数来顺序命名 后缀长度
  • url_ 分割后文件的前缀
  1. 添加拓展名

    split -l 4 file.txt -d -a 3 url_ && ls | grep url_ | xargs -n1 -i {} {}.txt

说明:

  • && 将2个命令连接起来一起执行
  • 查找url_开头的文件,逐个重命名为xxx.txt
  1. 使用 cat 命令合并数据

    cat url_*.txt > url.txt

其他

dd命令

生成一个大小为100kb的测试文件:

dd if=/dev/zero bs=100k count=1 of=data.file
1+0 records in
1+0 records out
102400 bytes (102 kB) copied, 0.000258 seconds, 397 MB/s
# count=1指仅拷贝一个块
# bs=100k 指块大小为100k个字节

dd命令用指定大小的块拷贝一个文件,并在拷贝的同时进行指定的转换。

  • if=文件名:输入文件名,缺省为标准输入。即指定源文件。< if=input file >
  • of=文件名:输出文件名,缺省为标准输出。即指定目的文件。< of=output file >
  • ibs=bytes:一次读入bytes个字节,即指定一个块大小为bytes个字节。 obs=bytes:一次输出bytes个字节,即指定一个块大小为bytes个字节。 bs=bytes:同时设置读入/输出的块大小为bytes个字节。
  • cbs=bytes:一次转换bytes个字节,即指定转换缓冲区大小。
  • skip=blocks:从输入文件开头跳过blocks个块后再开始复制。
  • seek=blocks:从输出文件开头跳过blocks个块后再开始复制。 注意:通常只用当输出文件是磁盘或磁带时才有效,即备份到磁盘或磁带时才有效。
  • count=blocks:仅拷贝blocks个块,块大小等于ibs指定的字节数。
  • conv=conversion:用指定的参数转换文件。

/dev/null和/dev/zero的区别

  • /dev/null,外号叫无底洞,你可以向它输出任何数据,它通吃,并且不会撑着!
  • /dev/zero,是一个输入设备,你可你用它来初始化文件。该设备无穷尽地提供0,可以使用任何你需要的数目——设备提供的要多的多。他可以用于向设备或文件写入字符串0。
  • /dev/null——它是空设备,也称为位桶(bit bucket)。任何写入它的输出都会被抛弃。如果不想让消息以标准输出显示或写入文件,那么可以将消息重定向到位桶。
  • 像/dev/null一样, /dev/zero也是一个伪文件, 但它实际上产生连续不断的null的流(二进制的零流,而不是ASCII型的)。 写入它的输出会丢失不见, 而从/dev/zero读出一连串的null也比较困难, 虽然这也能通过od或一个十六进制编辑器来做到。
  • /dev/zero主要的用处是用来创建一个指定长度用于初始化的空文件,就像临时交换文件。
  • 关于 /dev/zero 的另一个应用是为特定的目的而用零去填充一个指定大小的文件, 如挂载一个文件系统到环回设备 (loopback device)或"安全地" 删除一个文件。

参考链接1:Linux:split命令详解

参考链接2:linux命令总结dd命令详解

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Easter79 Easter79
3年前
swap空间的增减方法
(1)增大swap空间去激活swap交换区:swapoff v /dev/vg00/lvswap扩展交换lv:lvextend L 10G /dev/vg00/lvswap重新生成swap交换区:mkswap /dev/vg00/lvswap激活新生成的交换区:swapon v /dev/vg00/lvswap
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
待兔 待兔
5个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
3年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
3年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
11个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这