盘点一个Python网络爬虫+正则表达式处理案例

Python进阶者
• 阅读 481

大家好,我是Python进阶者。

一、前言

前几天在Python白银交流群【鑫】问了一个Python网络爬虫的问题,提问截图如下:

盘点一个Python网络爬虫+正则表达式处理案例

下面是他的代码:

import requests
import re
url = "https://movie.douban.com/top250"
headers = {
     "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36"
}
resp = requests.get(url, headers=headers)
resp.encoding = "utf-8"
pageSource = resp.text
print(pageSource)                 #re.S可以让正则的。匹配换行符
obj = re.compile(r'<div class="item">.*?<span class="title">(?P<name>.*?)</sp'
                 r'an>.*? <p class="">.*?导演:(?P<dao>.*?) <br>'
                 r'(?P<year>.*?) ', re.S)
result = obj.finditer(pageSource)
for item in result:
     print(item.group("name"))
     print(item.group("dao"))
     print(item.group("year"))

二、实现过程

这里【瑜亮老师】指出问题,如下所示:

盘点一个Python网络爬虫+正则表达式处理案例

事实上还是那个正则表达式写的有问题。

盘点一个Python网络爬虫+正则表达式处理案例

跟着视频来敲,有时候视频太老了,或者对应的网页结构改版了,导致原有的代码并不能够适配,导致出错。

盘点一个Python网络爬虫+正则表达式处理案例

修改之后可以得到正确的结果了。

三、总结

大家好,我是Python进阶者。这篇文章主要盘点了一个Python网络爬虫+正则表达式处理的问题,文中针对该问题,给出了具体的解析和代码实现,帮助粉丝顺利解决了问题。

最后感谢粉丝【鑫】提问,感谢【瑜亮老师】给出的思路和代码解析,感谢【dcpeng】、【ᯤ⁶ᴳ】等人参与学习交流。

点赞
收藏
评论区
推荐文章
Python进阶者 Python进阶者
2年前
盘点一个哔哩哔哩弹幕抓取并词云可视化的项目
大家好,我是皮皮。一、前言前几天在Python白银交流群【肉丸胡辣汤】问了一个Python网络爬虫和可视化的问题,提问截图如下:!(https://uploadimages.jianshu.io/upload_images/262
Python进阶者 Python进阶者
2年前
我在修改jupyter字体的时候输入命令jt -l 遇到了jt既不是内部也不是外部命令咋整?
大家好,我是Python进阶者。一、前言前几天在Python白银交流群【Joker】问了一个Jupyternotebook报错的问题,提问截图如下:!(https://uploadimages.jianshu.io/upload
Python进阶者 Python进阶者
2年前
盘点一个Python列表(元素多样)处理的实战题目(使用正则表达式也可以实现)
大家好,我是Python进阶者。一、前言前几天在Python白银交流群【凡人不烦人】问了一个Python列表处理的问题,提问截图如下:!(https://uploadimages.jianshu.io/upload_images/
Python进阶者 Python进阶者
2年前
这个txt文档每章后面都有个这个特殊字符,如何提取出来删除掉?
大家好,我是Python进阶者。一、前言前几天在Python白银交流群【Python狗】问了一个Python正则表达式处理的问题,提问截图如下:!(https://uploadimages.jianshu.io/upload_im
Python进阶者 Python进阶者
2年前
我想在一段文字中扣出关键字附近前后30个字,用正则怎么写?
大家好,我是Python进阶者。一、前言前几天在Python白银交流群【此类生物】问了一个Python数据提取的问题,提问截图如下:!(https://uploadimages.jianshu.io/upload_images/2
Python进阶者 Python进阶者
2年前
pyttsx3语音合成库如何指定是男声?
大家好,我是Python进阶者。一、前言前几天在Python白银交流群【Python小白】问了一个Python库运行的问题,提问截图如下:!(https://uploadimages.jianshu.io/upload_imag
Python进阶者 Python进阶者
2年前
该字段看上去是个列表字典嵌套,怎么只取出name对应的内容呢?
大家好,我是Python进阶者。一、前言前几天在Python最强王者交流群【WYM】问了一个Pandas处理的问题,提问截图如下:!(https://uploadimages.jianshu.io/upload_images/26
Python进阶者 Python进阶者
2年前
取出df3["text"]里 tblActors字段的内容,如果没有就填充一个值,怎么破?
大家好,我是Python进阶者。一、前言前几天在Python最强王者交流群【WYM】问了一个Pandas处理的问题,提问截图如下:!(https://uploadimages.jianshu.io/upload_images/26
Python进阶者 Python进阶者
2年前
盘点一个高德地图Python网络爬虫中前端数据和获取数据不一致问题
大家好,我是皮皮。一、前言前几天在Python钻石交流群【心田有垢生荒草】问了一个Python网络爬虫的问题,下图是截图:!(https://uploadimages.jianshu.io/upload_images/26
Python进阶者 Python进阶者
1年前
Python中为啥 int('12', 16) 的结果是 18?
大家好,我是皮皮。一、前言前几天在Python白银交流群【SamYao】问了一个Python基础的问题,提问截图如下:!image(https://uploadimages.jianshu.io/upload_images/26