微标题信公众号文章,阅读数,点赞数历史文章抓取
需求
最近在做舆情与微信文章相关的数据抓取,发现微信公众号有些难点很难克服。市面上流行的数据抓取思路要么被腾讯封杀,要么操作难度大。
解决方案
搜狗微信
无法采集历史,而且搜索也不按时间排序。获取的数据的价值不高,仅仅可以通过他获取公众号的biz。
微信公众平台
微信公众平台虽然可采集历史,但限制很大,没抓多少就被封接口了。只适用于少量的数据采集。
安卓端微信
网上很多基于xposed hook微信公众号实时推送文章的一些采集方案,大部分公司采集可能是这类的方案。网上公开的文章大都是基于旧版本的,然而大部分微信账号很难登录旧版本的微信,会提示当前版本低的问题。且新版本微信对xposed有强检测机制。但是需要较强的hook能力,且面临的法律风险已经是超出爬虫面临的风险了。
抓取新榜、清博等平台
这些平台一个共同点就是要验证登录且反爬措施更强。
网页版本微信
大部分新号都无法登录。
Windows微信
和安卓微信一样,hookwindows微信的难度等同于hook安卓端
一些其他方法
模拟点击和浏览器js注入,这类方法共同特点是数据维度较少,且效率低下,难以满足大量的抓取能力。
正确的姿势
破解方案暂时保密,这边有一个测试和接口调用的Demo,希望能帮到有需要的你 微信公众号链接