PageProcessor是所有PageRequest请求完成后处理的接口。 例如:startContext.createPageRequest("http://my.oschina.net/u/1377701/blog/425984",OschinaProcessor.class)即可指定处理页面结果 此时重写OschinaProcessor.process方法即可完成解析工作
方法详细资料
getJavaScript
PageScript getJavaScript()
如果这个页面需要动态交互JS,定义一个PageScript返回
返回:
getNormalContain
java.util.regex.Pattern getNormalContain()
当启动代理Ip访问时需要重写此方法,返回正常网页应该带有的字符串标识。比如www.baidu.com带有“百度”
返回:
process
void process(OkPage page, StartContext context, java.util.List<BasicRequest> queue, java.util.List<Proccessable> objectContainer) throws java.lang.Exception
处理一个页面
参数:
page
- 下载完成的网页context
- 当前所有入口的上下文对象queue
- 加入跟进Request的List容器,处理完成后queue的所有Request会被推送到抓取队列中抛出:
java.lang.Exception
processErrorPage
void processErrorPage(Page page, StartContext context) throws java.lang.Exception
处理错误页面
参数:
page
-context
-抛出:
java.lang.Exception