字符串包含了不需要的双引号,导致读取成json文件失败?Python怎么批量修改?

Python进阶者
• 阅读 231

大家好,我是Python进阶者。

一、前言

前几天在Python最强王者交流群【哎呦喂 是豆子~】问了一个Python数据处理的问题。问题如下:

大佬们 请教下这个问题,数据为下载的html文件,写法已经固定,解析成json文件会报错,这种字符串包含了不需要的双引号,导致读取成json文件失败?怎么批量修改?用正则会把其他数据也给替换掉,出现双引号的位置内容不确定

测试数据:{ "taskType": 1, "printPageHeight": 1459, "exportTypeTemplate": "html", "reportTitle": "信息科技"网络安全漏洞扫描系统 "安全评估报告-主机报表", "companyName": "信息科技", "createTime": "2024-08-09 10:03:48", "curr_lang": "zh-CN"pt "漏洞" }

怎么批量修改成可读取的json文件?

字符串包含了不需要的双引号,导致读取成json文件失败?Python怎么批量修改?

二、实现过程

这里【猫药师Kelly】给了一个指导,如下所示:最后一个字段curr_lang意思是用到的语言,那么pt "漏洞"就是无效信息。看看是不是其它数据都符合这个规律,是的话把无效信息清洗掉。

【哎呦喂 是豆子~】:那个是我改的 造的测试数据。

后来【此类生物】给了一份代码:

import re
import json

# 原始的JSON字符串
json_str = '''{
 "taskType": 1,
 "printPageHeight": 1459,
 "exportTypeTemplate": "html",
 "reportTitle": "信息科技"网络安全漏洞扫描系统 "安全评估报告-主机报表",
 "companyName": "信息科技",
 "createTime": "2024-08-09 10:03:48",
 "curr_lang": "zh-CN"pt "漏洞"
}'''

# 修复多余的逗号
json_str = re.sub(r',\s*[^,}]*/pre>, '', json_str)

# 修复属性值,确保每个属性值都被双引号包围
# 这个正则表达式会匹配到属性名和属性值,然后尝试修复属性值
json_str = re.sub(r'("([^"]+)"\s*:\s*)([^"]+)(,?)', r'\1"\4"\5', json_str)

# 尝试将修复后的字符串解析为JSON
try:
    data = json.loads(json_str)
    print("JSON解析成功:", data)
except json.JSONDecodeError as e:
    print("JSON解析失败:", e)

【哎呦喂 是豆子~】:不行 error: invalid group reference 5 at position 7。测试数据

要把这个数据解析成json文件,正常都是可以读取的,但是部分数据为了展示好看,研发把部分数据又加了引号,导致读取成json文件的时候报错,有没有什么办法可以避开这种问题,成功读取成json格式

【瑜亮老师】:下面这个代码:

json_str = re.findall(r'"(.*?)": (.*?)[,\n]', json_str)
data = {i[0]: i[1].replace('"', ' ') for i in json_str}

这样出来就字典。就是先匹配数据中冒号两端的数据,然后替换删除右侧字符串中的双引号。

想转换成json字符串,就加一行json_str = json.dumps(data, ensure_ascii=False)

【哎呦喂 是豆子~】:还得是大佬!!!瑜亮老师的办法简直了!!!显得我更我菜了 不知道变通 难怪有ai也救不了我

【黑科技·鼓包】:向老师学习!太强了!

后来【此类生物】也给了一份代码:他补充道:或许需求不是这样,没细看。

字符串包含了不需要的双引号,导致读取成json文件失败?Python怎么批量修改?

【瑜亮老师】:我那个也只是给出一个思路。你这个可以进一步修改,保持原数据中整型不变。data = {i[0]: i[1][1:-1] if i[1][0] == '"' else int(i[1]) for i in json_str}

后来粉丝的数据又有新增,如下:

字符串包含了不需要的双引号,导致读取成json文件失败?Python怎么批量修改?

后来【瑜亮老师】也顺利地解决了粉丝的提问。

字符串包含了不需要的双引号,导致读取成json文件失败?Python怎么批量修改?

顺利地解决了自己的问题。

如果你也有类似这种Python相关的小问题,欢迎随时来交流群学习交流哦,有问必答!

三、总结

大家好,我是Python进阶者。这篇文章主要盘点了一个Python数据处理的问题,文中针对该问题,给出了具体的解析和代码实现,帮助粉丝顺利解决了问题。

最后感谢粉丝【哎呦喂 是豆子~】提出的问题,感谢【瑜亮老师】、【猫药师Kelly】、【冯诚】、【黑科技·鼓包】、【此类生物】给出的思路,感谢【莫生气】等人参与学习交流。

【提问补充】温馨提示,大家在群里提问的时候。可以注意下面几点:如果涉及到大文件数据,可以数据脱敏后,发点demo数据来(小文件的意思),然后贴点代码(可以复制的那种),记得发报错截图(截全)。代码不多的话,直接发代码文字即可,代码超过50行这样的话,发个.py文件就行。

字符串包含了不需要的双引号,导致读取成json文件失败?Python怎么批量修改?

点赞
收藏
评论区
推荐文章
Python进阶者 Python进阶者
11个月前
这个正则 为啥同样的单号第二个就提取不出来?
大家好,我是皮皮。一、前言前几天在Python最强王者交流群【哎呦喂是豆子~】问了一个Python正则表达式数据提取的问题,一起来看看吧。大佬们请问下这个正则为啥同样的单号第二个就提取不出来?这是为啥?二、实现过程从字符串上来看,a和a1写法都是可能出现的
Python进阶者 Python进阶者
11个月前
盘点一个多Excel表格数据合并的实战案例
大家好,我是皮皮。一、前言前几天在Python最强王者交流群【哎呦喂是豆子~】问了一个Python自动化办公的问题,一起来看看吧。大佬们请问下这个数据怎么实现存在n个dataframe数据,想把数据写到同一个工作簿同一个sheet里面的,但是一直数据追加不
Python进阶者 Python进阶者
9个月前
有一个数据对应表,遍历df数据只要df存在对应的数据就替换掉,但是这个一直报错
大家好,我是皮皮。一、前言前几天在Python最强王者交流群【哎呦喂是豆子~】问了一个Pandas数据处理的问题,一起来看看吧。问题描述:大佬们请问下这个问题有一个数据对应表,然后遍历df数据只要df存在对应的数据就替换掉但是这个一直报错(IndexErr
Python进阶者 Python进阶者
9个月前
怎么把12个不同的df数据全部放到同一个表同一个sheet中且数据间隔2行空格?(下篇)
大家好,我是皮皮。一、前言前几天在Python最强王者交流群【哎呦喂是豆子~】问了一个Pandas实战的问题,一起来看看吧。问题描述:大佬们请问下这个怎么实现?有12个不同的df数据怎么把12个df数据全部放到同一个表同一个sheet中每个df数据之间隔2
Python进阶者 Python进阶者
9个月前
这个标题乱码不能显示怎么解决呀?
大家好,我是皮皮。一、前言前几天在Python最强王者交流群【哎呦喂是豆子~】问了一个matplotlib可视化的问题,一起来看看吧。问题描述:大佬们请问下这个标题乱码不能显示怎么解决呀?ai让我直接加,encoding'utf8'但是这个报错Attrib
Python进阶者 Python进阶者
8个月前
为啥替换后int类的数据直接NaN了,加了判断也是没替换成功?
大家好,我是皮皮。一、前言前几天在Python最强王者交流群【哎呦喂是豆子~】问了一个Pandas数据处理问题,一起来看看吧。问题描述:大佬们这个是为啥呀啊?为啥替换后int类的数据直接NaN了加加了判断也是没替换成功原始数据如下:pythonttpd.D
Python进阶者 Python进阶者
7个月前
为啥赋值他就报错JSONDecodeError?
大家好,我是皮皮。一、前言前几天在Python最强王者交流群【哎呦喂是豆子~】问了一个Python解析的问题。问题如下:大佬们谁有时间帮忙看下这个情况好奇怪哦为啥赋值他就报错JSONDecodeError:Expectingvalue:line1colum
Python进阶者 Python进阶者
7个月前
为啥一样一样的正则表达式,去提取就提取不出来?
大家好,我是皮皮。一、前言前几天在Python最强王者交流群【哎呦喂是豆子~】问了一个Pandas数据提取的问题。问题如下图所示:大佬们为啥一样一样的正则表达式for循环就可以出结果用apply(lambdax:re.findall(pattern,x))
Python进阶者 Python进阶者
6个月前
盘点一个Pandas处理json数据的实战案例
大家好,我是Python进阶者。一、前言前几天在Python最强王者交流群【黑科技·鼓包】问了一个Pandas处理json数据的问题。问题如下:大佬们请教下一个很简单的问题,因为我半瓢水也不知道该怎么解决,问AI好像也写不好描述,麻烦帮忙看看呗?如下jso
Python进阶者 Python进阶者
2个月前
excel实现对同一个工作簿下不同工作表分别加密,这种能实现吗?
大家好,我是Python进阶者。一、前言前几天在Python最强王者交流群【哎呦喂是豆子~】问了一个Python自动化办公的问题,问题如下:大佬们请问下这种能实现吗?excel实现对同一个工作簿下不同工作表分别加密。二、实现过程这里【瑜亮老师】给了一个思路