Wesley13 Wesley13
3年前
java抓取Https协议url地址的源码的方法
阅读本文之前,请先阅读下文,通过下文将获取到keystore文件:http://www.oschina.net/code/snippet\_273576\_18919(http://www.oschina.net/code/snippet_273576_18919)在此,感谢一下stevenliu(http://my.oschina.net/
Wesley13 Wesley13
3年前
java实现 PageRank算法
 PageRank算法是Google的核心搜索算法,在所有链接型文档搜索中有极大用处,而且在我们的各种关联系统中都有好的用法,比如专家评分系统,微博搜索/排名,SNS系统等。  PageRank算法的依据或思想:   1,被重要的网页链接的越多(外链) ,此网页就越重要   2,此网页对外的链接越少越重要   这两个依据不能
宙哈哈 宙哈哈
1年前
恶意爬虫?能让恶意爬虫遁于无形的小Tips
验证码是阻挡机器人攻击的有效实践,网络爬虫,又被称为网络机器人,是按照一定的规则,自动地抓取网络信息和数据的程序或者脚本。如何防控,这里简单提供几个小Tips。
Wesley13 Wesley13
3年前
UIWebView出现的webViewDidFinishLoad一直没触发的问题的解决方案
可能是由于网页上html不合规范的问题,使得第一种方法加载完网页会不调用webViewDidFinishLoad,但用第二种会调用webViewDidFinishLoad第一种://不调用webViewDidFinishLoadNSURLRequest\req\\NSURLRequestalloc\initWithURL:\N
Stella981 Stella981
3年前
Nginx+uwsgi+ssl配置https
使用原始django,太过于笨重和杂多nginx是一个轻量级的web服务器,在处理静态资源和高并发有优势uwsgi是一个基于python的高效率的协议,处理后端和动态网页有优势所以这里采用静态网页交给nginx解析,动态网页交给uwsgi解析,并且nginx配置ssl,即可以使用出高安全,高效率的部署。步骤我
Stella981 Stella981
3年前
HtmlExtractor 1.1 发布,网页信息抽取组件
HtmlExtractor(https://www.oschina.net/action/GoToLink?urlhttps%3A%2F%2Fgithub.com%2Fysc%2FHtmlExtractor)是一个Java实现的基于模板的网页结构化信息精准抽取组件,本身并不包含爬虫功能,但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。
Stella981 Stella981
3年前
JavaScript DOM编程艺术(第2版)学习笔记1(1~4章)
第一章一些基本概念HTML(超文本标记语言),构建网页的静态结构,由一系列的DOM组成;CSS(层叠样式表),给网页各部分结构添加样式;JavaScript,通过获取DOM给静态结构加上动作,使用户能够与静态网页进行交互;DOM,一种API(应用程序接口),通过这个接口动态的访问和修改结构或样式。浏
Python进阶者 Python进阶者
7个月前
想获取JS加载网页的源网页的源码,不想获取JS加载后的数据
大家好,我是Python进阶者。一、前言前几天在Python钻石交流群【梦】问了一个Python网络爬虫的问题,这个网站不知道使用了什么反爬手段,都获取不到页面数据。原来的那篇文章竟然爆文了,突破了1.5w的阅读量,欢迎大家围观。不过这里粉丝的需求有点奇怪
小白学大数据 小白学大数据
6个月前
Scala网络爬虫实战:抓取QQ音乐的音频资源
引言在当今数字化时代,互联网中蕴藏着海量的数据,而网络爬虫技术则是获取这些数据的重要工具之一。而Scala作为一种功能强大的多范式编程语言,结合了面向对象和函数式编程的特性,为网络爬虫开发提供了更多的可能性。在本文中,我们将结合网络爬虫技术和Scala编程