大家好,我是皮皮。
一、前言
前几天在Python白银交流群【上海新年人】问了一个Python网络爬虫数据提取的问题,一起来看看吧。他的需求就是:xpath的一次性同时获取a标签和p标签的内容。上一篇文章中,大佬们已经给出了一个答案,可是数据获取下来后发现和网页上的顺序展示并不一致,这一篇文章我们一起来看看解决办法。
二、实现过程
这里【猫药师Kelly】给了一个指导,如下所示: 碰到对位置要求严格的场景,用bs4吧。这里他给了一个提取的代码,如下://div[@class='ui-list-item-author']/*[self::p or self::a]
顺利地解决了粉丝的问题。bs4 按照节点取一层一层找,直观一点 ,而且数据获取之后,顺序方面也是和网页上的显示是一致的。
当然了,条条大路通罗马,针对该问题,还有其他的标签可以获取,也是可以一样达到数据提取目标的。
下面【瑜亮老师】也给了一个方法,如下图所示:
三、总结
大家好,我是皮皮。这篇文章主要盘点了一个Python网络爬虫数据提取的问题,文中针对该问题,给出了具体的解析和代码实现,帮助粉丝顺利解决了问题。
最后感谢粉丝【上海新年人】提出的问题,感谢【猫药师Kelly】、【东哥】、【巭孬🕷】给出的思路,感谢【莫生气】、【添砖java】等人参与学习交流。
【提问补充】温馨提示,大家在群里提问的时候。可以注意下面几点:如果涉及到大文件数据,可以数据脱敏后,发点demo数据来(小文件的意思),然后贴点代码(可以复制的那种),记得发报错截图(截全)。代码不多的话,直接发代码文字即可,代码超过50行这样的话,发个.py文件就行。