Stella981 Stella981
3年前
Python爬虫代理池
爬虫代理IP池在公司做分布式深网爬虫,搭建了一套稳定的代理池服务,为上千个爬虫提供有效的代理,保证各个爬虫拿到的都是对应网站有效的代理IP,从而保证爬虫快速稳定的运行,当然在公司做的东西不能开源出来。不过呢,闲暇时间手痒,所以就想利用一些免费的资源搞一个简单的代理池服务。1、问题代理IP从何而来?
Stella981 Stella981
3年前
Linux下调整根目录的空间大小教程
    我在将远程yum库同步到本地的过程中突然发现/目录下的磁盘空间太小了,根本能放不下那么多的rpm包,而/home目录下的居然有100多G无用的空间,于是,我查找了资料,并成功对linux进行了分区,现把分区方法写下来,供大家分享。    我使用如下的命令查看本地磁盘空间分布:df h    我的linux系统原来的分区空间如下:
Stella981 Stella981
3年前
Hystrix的介绍和简单使用
这周在看项目的相关代码时,接触到了Hystrix,因此查询了相关资料学习了下。一、什么是Hystrix  Hystrix是Netflix针对微服务分布式系统的熔断保护中间件,当我们的客户端连接远程的微服务时,有两种情况需要考虑:首先,如果远程系统当机了我们怎么办?其次,我们如何管理对远程微服务的调用性能,以保证每个微服务以最小延迟最快性能
Stella981 Stella981
3年前
Scala编程实战
项目概述需求目前大多数的分布式架构底层通信都是通过RPC实现的,RPC框架非常多,比如前我们学过的Hadoop项目的RPC通信框架,但是Hadoop在设计之初就是为了运行长达数小时的批量而设计的,在某些极端的情况下,任务提交的延迟很高,所以Hadoop的RPC显得有些笨重。Spark的RPC是通过Akka类库实现的,Akka用
Stella981 Stella981
3年前
Spring Boot 与 Kotlin 使用MongoDB数据库
我们在产品中用到NoSQL数据库MongoDB。下面就来简单介绍一下MongoDB,并且通过一个例子来介绍SpringBoot中对MongoDB访问的配置和使用。MongoDB简介MongoDB是一个基于分布式文件存储的数据库,它是一个介于关系数据库和非关系数据库之间的产品,其主要目标是在键/值存储方式(
Stella981 Stella981
3年前
OpenCV阈值化处理
图像的阈值化就是利用图像像素点分布规律,设定阈值进行像素点分割,进而得到图像的二值图像。图像阈值化操作有多种方法,常用方法有经典的OTSU、固定阈值、自适应阈值、双阈值及半阈值化操作。这里对各种阈值化操作进行一个总结。OTSU阈值化在阈值化处理中,常用的算法就是OTSU。发明人是NobuyukiOstu。这种二值化操作阈值的选取非常重要,阈
Stella981 Stella981
3年前
Elasticsearch文档读写模型实现原理
ES系列基于ElasticSearch6.4.x版本。1、简介ElasticSearch的存储设计天生就是分布式的。每个索引被分成多个分片(默认每个索引含5个主分片(primaryshard)),每个主分片又可以有多个副本。当一个文档被添加或删除时(主分片中新增或删除),其对应的复制分片之间必须保持同步。如果我们不这样做,那么对于同一个文档的检索请
事务,不只ACID | 京东物流技术团队
不论是ACID事务还是基于流处理系统的分布式事务,它们都保证数据的完整性。因为违反及时性可能会令人困惑,不过这只是暂时的,但是如果违反完整性,那么它的结果可能是灾难性的。违反一致性,最终一致性;违反完整性,永无一致性,是最好的概括
Vitess全局唯一ID生成的实现方案 | 京东云技术团队
为了标识一段数据,通常我们会为其指定一个唯一id,比如利用MySQL数据库中的自增主键。但是当数据量非常大时,仅靠数据库的自增主键是远远不够的,并且对于分布式数据库只依赖MySQL的自增id无法满足全局唯一的需求。因此,产生了多种解决方案,如UUID,Sn