Python自动化办公之PDF版本发票识别并提取关键信息实战教程(上篇)

Python进阶者
• 阅读 420

大家好,我是皮皮。

一、前言

前几天在Python白银交流群【上海新年人】问了一个Python自动化办公发票数据处理的问题,一起来看看吧。

Python自动化办公之PDF版本发票识别并提取关键信息实战教程(上篇)

二、实现过程

这个问题在实际工作中还是非常常见的,实用性和通用性都比较强,历史文章中其实也有写过几篇文章,这里继续给大家敲敲脑壳。

不过这里还涉及到一个场景,其实这个数据来源是pdf发票识别,然后存为Excel的,所以看上去格式还比较乱。

Python自动化办公之PDF版本发票识别并提取关键信息实战教程(上篇)

就是pdf里面有中括号,你提取来之后就把中括号带出来了,然后希望把中括号去掉,并且每列的每行都分成两列。

粉丝自己写了一个代码和正则表达式,但是出来的结果不尽人意,想在群里寻求大佬们的帮助。这里【甯同学】给了一个思路和代码,如下所示:

Python自动化办公之PDF版本发票识别并提取关键信息实战教程(上篇)

看上去确实可以得到正确的结果:

Python自动化办公之PDF版本发票识别并提取关键信息实战教程(上篇)

这个'\xa5' 的意思就是一个文字编码的问题,计算机本身不识别输入的东西需要先把它们翻译成计算机可以识别的。这里的结果看上去数据是一行,粉丝要的是里面几个数字,可以试试看转列表,然后索引取:

Python自动化办公之PDF版本发票识别并提取关键信息实战教程(上篇)

不过粉丝还补充了下面的这个情况,然后【甯同学】继续给出了对应的思路:

Python自动化办公之PDF版本发票识别并提取关键信息实战教程(上篇)

下一篇文章我们一起来看具体的代码,敬请期待!

三、总结

大家好,我是皮皮。这篇文章主要盘点了一个Python自动化办公发票数据处理的问题,文中针对该问题,给出了具体的解析和代码实现,帮助粉丝顺利解决了问题。

最后感谢粉丝【上海新年人】提问,感谢【论草莓如何成为冻干莓】、【甯同学】、【瑜亮老师】、【FANG.J】、【袁学东】给出的思路和代码解析,感谢【顾德猫宁】、【Day_dreamer】等人参与学习交流。

【提问补充】温馨提示,大家在群里提问的时候。可以注意下面几点:如果涉及到大文件数据,可以数据脱敏后,发点demo数据来(小文件的意思),然后贴点代码(可以复制的那种),记得发报错截图(截全)。代码不多的话,直接发代码文字即可,代码超过50行这样的话,发个.py文件就行。

Python自动化办公之PDF版本发票识别并提取关键信息实战教程(上篇)

点赞
收藏
评论区
推荐文章
Python进阶者 Python进阶者
1年前
使用Python统计下桌面某个文件夹下(含多层子文件夹)具体文件的数量(方法一)
大家好,我是皮皮。一、前言前几天在Python最强王者群【东哥】问了一个Python自动化办公的问题,一起来看看吧。这个是他自己在实际工作中遇到的需求,正好遇到了这个问题,想着用Python来实现下。二、实现过程这里【郑煜哲·Xiaopang】给了一个提示
Python进阶者 Python进阶者
1年前
使用Python统计下桌面某个文件夹下(含多层子文件夹)具体文件的数量(方法二)
大家好,我是皮皮。一、前言前几天在Python最强王者群【东哥】问了一个Python自动化办公的问题,一起来看看吧。这个是他自己在实际工作中遇到的需求,正好遇到了这个问题,想着用Python来实现下。二、实现过程上一篇文章中已经分享了一个方法,这一篇文章继
Python进阶者 Python进阶者
1年前
使用Python统计下桌面某个文件夹下(含多层子文件夹)具体文件的数量(方法三)
大家好,我是皮皮。一、前言前几天在Python最强王者群【东哥】问了一个Python自动化办公的问题,一起来看看吧。这个是他自己在实际工作中遇到的需求,正好遇到了这个问题,想着用Python来实现下。二、实现过程上一篇文章中已经分享了一个方法,这一篇文章继
Python进阶者 Python进阶者
1年前
Python自动化办公——3个Excel表格中每个门店物品不同,想要汇总在一起(方法一)
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Python自动化办公处理的问题,一起来看看吧。原始数据如下所示:二、实现过程这里【猫药师Kelly】给了一个代码和思路,如下所示:顺利地解决了粉丝的问题。下一篇文章,我们一起来
Python进阶者 Python进阶者
1年前
Python自动化办公——3个Excel表格中每个门店物品不同,想要汇总在一起(方法二)
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Python自动化办公处理的问题,一起来看看吧。上一篇文章中,我们已经看到了两种解决办法了,这一篇文章我们一起来看看另外一种方法。二、实现过程这里【瑜亮老师】另外再给了一个代码和
Python进阶者 Python进阶者
1年前
3个Excel表格中每个门店物品不同,想要汇总在一起(方法三)
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Python自动化办公处理的问题,一起来看看吧。上一篇文章中,我们已经看到了第一种解决办法了,这一篇文章我们一起来看看另外一种方法。二、实现过程这里【瑜亮老师】给了一个代码和思路
Python进阶者 Python进阶者
1年前
Python自动化办公——3个Excel表格中每个门店物品不同,想要汇总在一起(方法五)
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Python自动化办公处理的问题,一起来看看吧。上一篇文章中,我们已经看到了四种解决办法了,这一篇文章我们一起来看看另外一种方法。二、实现过程这里【论草莓如何成为冻干莓】给了un
Python进阶者 Python进阶者
1年前
盘点一个Python自动化办公需求之word文档图片自动插入
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Python自动化办公的问题,一起来看看吧。下面还给出了他的代码。二、实现过程这里【瑜亮老师】给了一个思路:如下所示:顺着这个思路,粉丝写了一份代码,但是在循环部分好像还存在些问
Python进阶者 Python进阶者
11个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这
Python进阶者 Python进阶者
3个月前
盘点一个Python自动化办公实战问题
大家好,我是Python进阶者。一、前言前几天在Python白银交流群【上海新年人】问了一个Python自动化办公实战的问题,问题如下:大佬们,我有个难度高的问题,我有个文件夹,里面呢有一堆文件,然后我要寻找至少2个关键字相同的文件,然后提取文件中第二列中