HtmlExtractor 1.1 发布,网页信息抽取组件

Stella981
• 阅读 622

HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件,本身并不包含爬虫功能,但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。

HtmlExtractor是为大规模分布式环境设计的,采用主从架构,主节点负责维护抽取规则,从节点向主节点请求抽取规则,当抽取规则发生变化,主节点主动通知从节点,从而能实现抽取规则变化之后的实时动态生效。

在本次发布的1.1版本中,对API做了更合理的重构,并给出了详细的使用方法,除了抽取组件,还加入了网页抓取组件,能执行JS,支持动态渲染的页面等。

HtmlExtractor项目主页

点赞
收藏
评论区
推荐文章
Wesley13 Wesley13
3年前
java爬虫
想找一些图片做桌面背景,但是又不想一张张去下载,后来就想到了爬虫。。。对于爬虫我也没具体用过,在网上一顿搜索后写了个小demo。爬虫的具体思路就是:1.调用url爬取网页信息2.解析网页信息3.保存数据刚开始还用正则去匹配,获取img标签中的src地址,但是发现有很多不便(主要我正则不太会),后来发现了jsoup这个神器。jsoup
Stella981 Stella981
3年前
Python_爬虫笔记_2018.3.19
Python\_爬虫\_笔记1.前言1.1爬虫用途:网站采集、接口采集(地图(jis热力学屋里端口/协议)、微信、知乎、)1.2基本流程:网页下载(requests)网页解析爬虫调度网页解析:在当前网站找信息、下一个入口等信息调度:调度器/
Stella981 Stella981
3年前
Krabber
Krabber是kVitrail的网页抽取工具。Krabber的设计目标是提供一个可以为Java应用调用的、可以执行网页上的JavaScript代码、并返回JavaScript代码执行后的网页的HTML代码的网页抽取工具。java模拟AJAXhttp://sourceforge.net/projects/kvitrail/(https://w
Stella981 Stella981
3年前
ForeSpider教程之如何爬取位置不固定的图片
众所周知,对于新闻网站来说,图片位置是无法固定的,所以想要爬取到这些位置不固定的图片,需要一定的技术手段。以某网站为例,任务入口地址为:http://www.chengdu.cn/一、对首页进行链接抽取。 抽取文章标题,使用地址过滤“包含”.shtml。抽取到结果如下:二、新建模板2,抽取图片链接及内容数据:示例地址如下:ht
Stella981 Stella981
3年前
Python网络爬虫与如何爬取段子的项目实例
一、网络爬虫Python爬虫开发(https://www.oschina.net/action/GoToLink?urlhttp%3A%2F%2Fwww.shsxt.com%2Fpython)工程师,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样
Stella981 Stella981
3年前
PHP用Swoole实现爬虫(一)
基本概念网络爬虫网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。swoolePHP的异步、并行、高性能网络通信引擎,使用纯C语言编写,提供了PHP语
Stella981 Stella981
3年前
Essential Studio for UWP发布2017 v2,新增甘特图控件
EssentialStudioforUWP(https://www.oschina.net/action/GoToLink?urlhttps%3A%2F%2Fwww.evget.com%2Fproduct%2F3894)是包含有35组件的综合套包,包括最快的图表和网格组件。所有组件根据当前被呈现的设备系列自适应渲染。EssentialStu
小白学大数据 小白学大数据
5个月前
网页爬虫开发:使用Scala和PhantomJS访问知乎
引言随着大数据时代的到来,网页爬虫作为一种高效的数据收集工具,被广泛应用于互联网数据抓取和信息抽取。而知乎是一个知识分享平台,拥有大量的用户生成内容。通过爬虫获取知乎数据,企业和研究人员可以进行深入的数据分析和市场研究,了解用户的需求、兴趣和行为模式,从而
小白学大数据 小白学大数据
5个月前
Rust中的数据抓取:代理和scraper的协同工作
一、数据抓取的基本概念数据抓取,又称网络爬虫或网页爬虫,是一种自动从互联网上提取信息的程序。这些信息可以是文本、图片、音频、视频等,用于数据分析、市场研究或内容聚合。为什么选择Rust进行数据抓取?●性能:Rust的编译速度和运行效率极高。●内存安全:Ru