Wesley13 Wesley13
4年前
java爬虫进阶 —— ip池使用,iframe嵌套,异步访问破解
写之前稍微说一下我对爬与反爬关系的理解一、什么是爬虫   爬虫英文是splider,也就是蜘蛛的意思,web网络爬虫系统的功能是下载网页数据,进行所需数据的采集。主体也就是根据开始的超链接,下载解析目标页面,这时有两件事,一是把相关超链接继续往容器内添加,二是解析页面目标数据,不断循环,直到没有url解析为止。举个栗子:我现在要爬取苏宁手机价
Aimerl0 Aimerl0
4年前
openGauss——VMware安装
写在前面本教程适用于0基础小白,里面的很多命令、技术细节没有进行解释,因为那样要增补的内容太多了,都是一些Linux的相关知识,还有一些openGauss官方手册里面的内容,太过于啰嗦学校上的数据库,安排的数据库的实验说要用华为这款开源的数据库,(估计是学校近些年一直跟华为合作),内核是拿PostgreSQL写的,老师给的教程是拿Vir
Wesley13 Wesley13
4年前
MySQL之锁、事务、优化、OLAP、OLTP
本节目录一锁的分类及特性二表级锁定(MyISAM举例)三行级锁定四查看死锁、解除锁五事务六慢日志、执行计划、sql优化七OLTP与OLAP的介绍和对比八关于autocommit的测试一锁的分类及特性  数据库锁定机制简单来说,就是数据库为了保证数据的一致性,而使各种共享资源在被并发访问变得有序所设计的一种规则。对于任何
Stella981 Stella981
4年前
ShortUrl Hash的实现
shorturl实现常见的做法都是将原始Url存储到数据库,由数据库返回一个对应ID。以下要实现的是不用数据库支持就对原始URL进行shorturlhash。说到这里我们很容易想到MD5,固定长度,冲突概率小,但是32个字符,太长?我们以MD5为基础,将其字符缩短,同时要保证一定数量范围内hash不会冲突。我们分成两个步骤来实现。第一步算法:
Stella981 Stella981
4年前
R、Python、Scala和Java,到底该使用哪一种大数据编程语言?
有一个大数据项目,你知道问题领域(problemdomain),也知道使用什么基础设施,甚至可能已决定使用哪种框架来处理所有这些数据,但是有一个决定迟迟未能做出:我该选择哪种语言?(或者可能更有针对性的问题是,我该迫使我的所有开发人员和数据科学家非要用哪种语言?)这个问题不会推迟太久,迟早要定夺。当然,没有什么阻止得了你使用其他机制(比如XSLT转换)
Stella981 Stella981
4年前
Redis缓存被污染了,该怎么办?
在一些场景下,有些数据被访问的次数非常少,甚至只会被访问一次。当这些数据服务完访问请求后,如果还继续留存在缓存中的话,就只会白白占用缓存空间。这种情况,就是缓存污染。1.如何解决缓存污染问题?要解决缓存污染,我们也能很容易想到解决方案,那就是得把不会再被访问的数据筛选出来并淘汰掉。这样就不用等到缓存被写满以后,再逐一淘汰旧
Stella981 Stella981
4年前
Spark Core读取ES的分区问题分析
ES也是比较火热,在日志数据分析,规则分析等确实很方便,说实话用esstack浪尖觉得可以解决很多公司的数据分析需求。极客时间下周一要上线新的ES课程,有需要的暂时别购买,到时候还找浪尖返现吧。写这篇文章的原因是前两天星球球友去面试,面试管问了一下,Spark分析ES的数据,生成的RDD分区数跟什么有关系呢?稍微猜测一下就能想到
Stella981 Stella981
4年前
JVM类加载
运行时数据区java虚拟机定义了若干种程序运行时使用到的运行时数据区1.有一些是随虚拟机的启动而创建,随虚拟机的退出而销毁2.第二种则是与线程一一对应,随线程的开始和结束而创建和销毁。java虚拟机所管理的内存将会包括以下几个运行时数据区域!(http://static.oschina.net/uplo
Stella981 Stella981
4年前
CNKI小爬虫(Python)
CNKI作为国文最大的数据库,虽然下载文章是需要登陆的,但是只除了全文外还有很多有价值的信息,包括文章名,作者,基金还有摘要,都可以作为重要数据进行匿名爬取,先写个简单的出来,之后有空再建个关联的数据吧因为闲放在一个文件中太乱所以把他们分开两个文件,一个为主文件Crawl\_cnki.py,一个为参数文件Parameters.py。文件包:https:
Stella981 Stella981
4年前
Django 表单处理流程
Django的表单处理:视图获取请求,执行所需的任何操作,包括从模型中读取数据,然后生成并返回HTML页面(从模板中),我们传递一个包含要显示的数据的上下文。使事情变得更复杂的是,服务器还需要能够处理用户提供的数据,并在出现任何错误时,重新显示页面。下面显示了Django如何处理表单请求的流程图,从对包含表单的页面的请求开始(以绿色显示):!(