盘点一个Python网络爬虫过程中中文乱码的问题

Python进阶者
• 阅读 584

大家好,我是皮皮。

一、前言

前几天在Python白银交流群【空翼】问了一个Python网络爬虫中文乱码的问题,提问截图如下:

盘点一个Python网络爬虫过程中中文乱码的问题

原始代码如下:

import requests
import parsel

url='https://news.p2peye.com/article-514723-1.html'
headers={
'Accept-Language': 'zh-CN,zh;q=0.9',
'Accept': 'application/json, text/javascript, */*; q=0.01',
'Accept-Encoding': 'gzip, deflate, br',
'Cookie': 'A4gK_987c_saltkey=NEkW4yhb; A4gK_987c_lastvisit=1661338603; TYID=enABI2MGEfsNMDZOu4hwAg==; TJID=enABI2MGEfw+MDzqY2WWAg==; Hm_lvt_556481319fcc744485a7d4122cb86ca7=1661342207; Hm_lpvt_556481319fcc744485a7d4122cb86ca7=1661342851; A4gK_987c_sendmail=1; A4gK_987c_lastact=1661343292%09ajax.php%09advertisement',
'Host': 'news.p2peye.com',
'Referer': 'https://news.p2peye.com/article-514723-1.html',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36',
'X-Requested-With': 'XMLHttpRequest'
}
res=requests.get(url=url, headers=headers)

print(res.status_code)

res.encoding = res.apparent_encoding

# print(res.text)
selector_1 = parsel.Selector(res.text)
title = selector_1.css('#plat-title').get()
print(title)

输出的话,看上去确实有乱码,如下图所示:

盘点一个Python网络爬虫过程中中文乱码的问题

二、实现过程

这里【空翼】自己后来稍微调整了下编码,代码如下所示:

res.encoding = 'gbk'

就可以得到预期的效果了

盘点一个Python网络爬虫过程中中文乱码的问题

只是有点不太明白,为啥res.encoding=res.apparent_encoding就不好用了,之前都无往不利的。其实这个是让它直接推测编码,肯定没有自己指定的准。

后来【皮皮】也给了一个代码,如下所示:

title.encode('iso-8859-1').decode('gbk')

也是可以得到正常的结果的:

盘点一个Python网络爬虫过程中中文乱码的问题

三、总结

大家好,我是皮皮。这篇文章主要盘点了一个Python网络爬虫过程中中文乱码的问题,文中针对该问题给出了具体的解析和代码实现,帮助粉丝顺利解决了问题。

最后感谢粉丝【空翼】提问,感谢【皮皮】、【甯同学】给出的思路和代码解析,感谢【dcpeng】、【冫马讠成】等人参与学习交流。

点赞
收藏
评论区
推荐文章
Python进阶者 Python进阶者
3年前
盘点3种Python网络爬虫过程中的中文乱码的处理方法
大家好,我是Python进阶者。前几天给大家分享了一些乱码问题的文章,感兴趣的小伙伴可以前往:,这里再次给大家祭出网络爬虫过程中三种中文乱码的处理方案,希望对大家的学习有所帮助。前言前几天有个粉丝在Python交流群里问了一道关于使用Python网络爬虫过程中中文乱码的问题,如下图所示。看上去确实头大,对于爬虫初学者来说,这个乱码摆在自己面前,犹如拦路虎一
Python进阶者 Python进阶者
2年前
盘点Python网络爬虫过程中xpath的联合查询定位一个案例
大家好,我是皮皮。一、前言前几天在Python钻石交流群【髙鵬】问了一个Python网络爬虫的问题,提问截图如下:原始代码如下:importtimefromseleniumimportwebdriverfromselenium.webdriver.common.byimportBydriverwebdriver.Chrome()drive
Python进阶者 Python进阶者
2年前
盘点一个哔哩哔哩弹幕抓取并词云可视化的项目
大家好,我是皮皮。一、前言前几天在Python白银交流群【肉丸胡辣汤】问了一个Python网络爬虫和可视化的问题,提问截图如下:!(https://uploadimages.jianshu.io/upload_images/262
Python进阶者 Python进阶者
2年前
根据uid进行分组后,然后组内,按照mon进行升序,怎么写语句呢?
大家好,我是皮皮。一、前言前几天在Python白银交流群【空翼】问了一个Pandas处理的问题,提问截图如下:!(https://uploadimages.jianshu.io/upload_images/26239789773
Python进阶者 Python进阶者
2年前
盘点一个Python网络爬虫+正则表达式处理案例
大家好,我是Python进阶者。一、前言前几天在Python白银交流群【鑫】问了一个Python网络爬虫的问题,提问截图如下:!(https://uploadimages.jianshu.io/upload_images/2623
Python进阶者 Python进阶者
2年前
anaconda虚拟环境下pip报这个错咋回事啊?
大家好,我是皮皮。一、前言前几天在Python白银交流群【喜靓仔】问了一个Python库安装的问题,提问截图如下:!(https://uploadimages.jianshu.io/upload_images/26239789a
Python进阶者 Python进阶者
1年前
Python中为啥 int('12', 16) 的结果是 18?
大家好,我是皮皮。一、前言前几天在Python白银交流群【SamYao】问了一个Python基础的问题,提问截图如下:!image(https://uploadimages.jianshu.io/upload_images/26
Python进阶者 Python进阶者
1年前
盘点一个使用playwright实现网络爬虫的实战案例
大家好,我是皮皮。一、前言前几天在Python白银交流群【空翼】问了一个Pyhton网络爬虫的问题,这里拿出来给大家分享下。二、实现过程【喜靓仔】提出用playwright实现,后来他自己给出了代码,如下图所示:代码如下:fromplaywright.sy
Python进阶者 Python进阶者
7个月前
盘点3种Python网络爬虫过程中的中文乱码的处理方法
大家好,我是Python进阶者。前几天给大家分享了一些乱码问题的文章,感兴趣的小伙伴可以前往:,这里再次给大家祭出网络爬虫过程中三种中文乱码的处理方案,希望对大家的学习有所帮助。前言前几天有个粉丝在Python交流群里问了一道关于使用Python网络爬虫过
Python进阶者 Python进阶者
5个月前
Python网络爬虫的时候json=就是让你少写个json.dumps()
大家好,我是皮皮。一、前言前几天在Python白银交流群【空翼】问了一个Python网络爬虫的问题,提问截图如下:登录请求地址是这个:二、实现过程这里【甯同学】给了一个提示,如下所示:估计很多小伙伴和我一样会有一个疑问吧,为啥这次要用jsondata啊?因