Python+Excel+Word一秒制作百份合同

Stella981
• 阅读 746

Python+Excel+Word一秒制作百份合同

前言

大家好,又到了Python办公自动化系列。

今天我们继续分享一个真实的办公自动化需求:如何使Python+Excel+Word批量生成指定格式内容的合同。

主要涉及的知识点有:openpyxl模块的综合运用与Word文档的两种遍历逻辑。

需求描述

你是乙方建筑公司,手上有一份空白合同模板的Word文件,如下图:

Python+Excel+Word一秒制作百份合同

Python+Excel+Word一秒制作百份合同

另外还有一份Excel合同信息表,其中是所有甲方(发包人)在合同中需要填写的内容

Python+Excel+Word一秒制作百份合同 Python+Excel+Word一秒制作百份合同

可见一行为一个公司的全部信息,现在需要把Excel中每一个公司的信息填入空白Word合同模板中,生成各公司的合同,最终结果如下

Python+Excel+Word一秒制作百份合同

Python+Excel+Word一秒制作百份合同

步骤分析

原本我们需要将Excel汇总表中每一行的信息填进word模板中,生成相应的合同。

现在我们需要交给Python来实现,就引出了一个问题:程序如何知道要将某个信息填到哪个下划线? 为了解决这个问题,我们需要对模板进行修改。

即将下划线改成某种标识,让程序可以看到标识就明白此处应该放什么信息,这里采取的策略是:将需要填写的下划线改成汇总表中的列名,即下图所示

Python+Excel+Word一秒制作百份合同

这样程序就可以识别需要填写什么内容了。所谓的识别在这里可以换一个特别简单的词,即文本替换。只要检索到#xxxx#(excel中的列名),把这个替换成具体的信息就可以了。

出于这种策略,列名就需要用#xxxx#的格式,否则正常的无关文本中的信息也会被替换,就破坏了原有的需求,最后模板被修改成如下:

Python+Excel+Word一秒制作百份合同

通过Excel表我们可以看到,一行为一个公司的信息,而每一列的列名就存在于模板中,用各个公司的实际信息替换到模板中的列名(程序识别和文本替换的依据)

用这样的方法就可以完成这个需求。整个大需求的实现可以按照下面的步骤:

分析后的步骤:

  1. 将 空白合同 调整成 合同模板,需要填写的下划线改成专属的列名

  2. 打开Excel表,按行循环,然后按单元格逐个循环各个信息,每个信息都找到模板中存在的对应列名并将其替换(如果不理解下文还有解释)

  3. 每次循环完一行的全部单元格后保存合同,生存各个公司单独的合同

分析清楚后逻辑就非常简单了,但有一个隐含的知识点没有提到,让我们边写代码边说!

代码实现

首先导入模块,设置路径,建立文件夹,本例中涉及Excel表的打开和Word的创建,因此需要从openpyxl导入load_workbook,而Word无论打开还是创建,用docx模块的Document均可

from docx import Documentfrom openpyxl import load_workbook# 利用os模块建立文件夹,用于存放生成的合同import os# 给定合同模板和汇总表所在的文件夹路径,方便复用path = r'C:\Users\chenx\Desktop\合同'# 结合路径判断生成文件夹,规避程序报错而终止的风险if not os.path.exists(path + '/' + '全部合同'):    os.mkdir(path + '/' + '全部合同')

接着打开Excel文件

workbook = load_workbook(path + '/' + '合同信息表.xlsx')sheet = workbook.active

现在遍历Excel,生成合同。前面也反复提到,Excel的每一行是一份特定合同的信息,因此docx针对Word文件的实例化和保存一定是在循环体里的,而不像Excel的实例化是在循环体外面

# 有效信息行是从第二行开始的,第二行是表头,包含列名,也是文本替换的依据for table_row in range(2, sheet.max_row + 1):    # 每循环一行实例化一个新的word文件    wordfile = Document(path + '/' + '合同模板.docx')    # 单元格需要逐个遍历,每一个都包含着有用的信息    for table_col in range(1, sheet.max_column + 1):        # 旧的文本也就是列名,已经在模板里填好了,用于文本替换,将row限定在第一行后就是列名        old_text = str(sheet.cell(row=1, column=table_col).value)        # 新的文本就是实际的信息,table_col循环到某个数值时,实际的单元格和列名就确定了        new_text = str(sheet.cell(row=table_row, column=table_col).value)        # 加上这个判断是因为日期信息读进程序是“日期 时间”格式的,如果要保留日期信息可以用字符串方法或者用time/datetime模块处理        if ' ' in new_text:            new_text = new_text.split()[0]

通过下图进一步理解这个替换:

Python+Excel+Word一秒制作百份合同 例如程序已经进入第3个循环(循环到第3个公司),针对单元格的循环进入第4个循环,那么此时获取的实际值是建设C公园,对应的列名是#工程内容#

此时就明确了需要被替换的内容了,只要在模板中找到#工程内容#把它替换为建设C公园即可!了解了这个替换后,下一步就是遍历Word模板,找到对应列名替换!

之前我们说过docx模块,Word文本存在文档Document-段落Paragraph-文字块Run的三级结构,需要遍历文本可以用以下代码:

all_paragraphs = wordfile.paragraphsfor paragraph in all_paragraphs:    print(paragraph.text)    for run in paragraph.runs:        print(run.text)

针对段落和文字块均可用.text获取到文字信息。本需求隐含的陷阱就在这里,注意一下合同最后需要填写的内容:

Python+Excel+Word一秒制作百份合同

这部分内容如果用上述代码是遍历不到的。为什么?因为这是Word文档中的表格!

遍历表格需要有专门的遍历逻辑:文档Document-表格Table-行Row/列Column-单元格Cell,遍历表格中文本的代码如下:

all_tables = wordfile.tablesfor table in all_tables:    # 也可按列遍历    for row in table.rows:        for cell in row.cells:            print(cell.text)

有了这些补充的知识之后,本案例中最核心的代码就可以这么写

for table_row in range(2, sheet.max_row + 1):    wordfile = Document(path + '/' + '合同模板.docx')    for table_col in range(1, sheet.max_column + 1):        old_text = str(sheet.cell(row=1, column=table_col).value)        new_text = str(sheet.cell(row=table_row, column=table_col).value)        if ' ' in new_text:            new_text = new_text.split()[0]                # 文档Document - 段落Paragraph - 文字块Run        all_paragraphs = wordfile.paragraphs        for paragraph in all_paragraphs:            for run in paragraph.runs:                run.text = run.text.replace(old_text, new_text)        # 文档Document - 表格Table - 行Row/列Column - 单元格Cell        all_tables = wordfile.tables        for table in all_tables:            for row in table.rows:                for cell in row.cells:                    cell.text = cell.text.replace(old_text, new_text)    # 获取公司名用以生成合同的名称    company = str(sheet.cell(row=table_row, column=1).value)    wordfile.save(path + '/' + f'全部合同/{company}合同.docx')

写在最后

本次的案例具有较强的实用性,并且需求可以延伸成为:将一份信息汇总表Excel中的每一个单独信息(每一行或者每一列为个人、公司或者其他的信息)填写到指定的模板Eord中,生成单独的文档,不过在写自动化脚本之前也要先拆分任务,明确思路再进行!

如果对本文的代码和数据感兴趣可以在后台回复自动化获取。最后还是希望大家能够理解Python办公自动化的一个核心就是批量操作-解放双手,让复杂的工作自动化!

Python+Excel+Word一秒制作百份合同

Python+Excel+Word一秒制作百份合同 Python+Excel+Word一秒制作百份合同

本文分享自微信公众号 - 早起Python(zaoqi-python)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Wesley13 Wesley13
3年前
java将前端的json数组字符串转换为列表
记录下在前端通过ajax提交了一个json数组的字符串,在后端如何转换为列表。前端数据转化与请求varcontracts{id:'1',name:'yanggb合同1'},{id:'2',name:'yanggb合同2'},{id:'3',name:'yang
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
待兔 待兔
4个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Wesley13 Wesley13
3年前
Java获得今日零时零分零秒的时间(Date型)
publicDatezeroTime()throwsParseException{    DatetimenewDate();    SimpleDateFormatsimpnewSimpleDateFormat("yyyyMMdd00:00:00");    SimpleDateFormatsimp2newS
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
3年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
3年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
10个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这