Crawler 不需要写代码的爬虫不需要写正则的爬虫

Stella981

2021-10-11 16:34 • 阅读 909

Crawler V1.0.0

代码还没有优化
框架结构很简单
部分功能需要你们给我需求，我后期添加测试

操作指南

命令：java -jar Crawler.jar -[option]

    -v  爬虫的版本信息

    -h  爬虫的帮助文档

    -ct [url]  爬虫爬取一个网站测试 URL:测试的URL地址

    -cw [url] [k,v] 测试信息抽取 | URL:测试的URL | [k,v] title,div[class=title] 如果有多个参数,使用#隔开

    -ci [urllist] [k,v] <InputResult> 把抽取的信息规则保存xml中,可以使用SQL工具的导入向导导入到数据库或者转成其他格式| <InputResult> 保存结
果目录

    -cl [url] [k,v] <InputUrllist> 把某URL的列表URL保存到文件中,可以用ci进行深入爬取

E.g 例子

1、-ci URL文件爬虫规则输出路径

Crawler 不需要写代码的爬虫不需要写正则的爬虫

2、执行java -jar crawler.jar -ci url.txt title,h1[id=artibodyTitle]#date,span[id=pub_date]#nodes,div[id=artibody] data.xml

Crawler 不需要写代码的爬虫不需要写正则的爬虫

然后我们可以使用SQL导入向导，用xml导入的方式,然后又可以转换为XML、TXT、EXCEL、WORD等多种格式。Navicat工具等

3、-cl命令就是用来生成urllist.txt 然后执行ci命令即可

我的邮箱344892053@qq.com BUG直接ISS或者邮件,你把你的需求告诉我,我来完善,我自己手头有一堆还没完善。

已经完成的:

1、URL格式化,部分网站的URL以"/" "./" "../" "//" 这些已经解决了

2、HTTP代理接口,有了还没有加

3、自定义UA和Cookie登录也有了，没有加

4、JDBC之前有,感觉没有xml导入的快，是个累赘删除了

5、预留了个性化工具,批量提取EMail、QQ、手机号等

6、给SQLMAP做了接口,可在后期实现自动化注入测试和XSS测试

7、可以给Nutch结合上

8、还有问题给我提，我记记，然后慢慢完善。代码是开源 JavaGUI你懂

PS：使用者必须要有Java运行时环境

现在的功能可与Shell DOS命令结合：定时爬虫、分布式爬虫，可以自由组合

OSchina:http://git.oschina.net/puguoan/Crawler

命令已经改变了许多，请看Git中的说明

url xml语言前端前端

点赞

收藏

评论区

Stella981

Lv1

接天莲叶无穷碧，映日荷花别样红。

文章

1.7w

粉丝

45

获赞

30

热门文章

OpenVPN下载、安装、配置及使用详解

OpenWrt 路由器过滤广告的N种方法

GitHub神器，一个可以白嫖全网无损音乐的神器

Python—执行系统命令的四种方法（os.system、os.popen、commands、subprocess）

SS端加密以及obfs混淆