Wesley13 Wesley13
3年前
java爬虫入门
通用网络爬虫又称全网爬虫(ScalableWebCrawler),爬行对象从一些种子URL扩充到整个Web,主要为门户站点搜索引擎和大型Web服务提供商采集数据。今天我写的主要是一些皮毛入门现在来看下我们的pom依赖<projectxmlns"http://maven.apache.org/POM/4.0.0"xmln
Stella981 Stella981
3年前
Hadoop是一种开源的适合大数据的分布式存储和处理的平台
“Hadoop能做什么?”,概括如下:  1)搜索引擎:这也正是DougCutting设计Hadoop的初衷,为了针对大规模的网页快速建立索引;  2)大数据存储:利用Hadoop的分布式存储能力,例如数据备份、数据仓库等;  3)大数据处理:利用Hadoop的分布式处理能力,例如数据挖掘、数据分析等;  4)
Wesley13 Wesley13
3年前
4. 安装ingress
ingressnginx安装这里假设你已经了解了ingressnginx,如果你还没了解请询问搜索引擎。这篇文章只能让你快速的部署他们。安装之前安装之前需要确保你的集群正常运行或主节点再运行:如果集群正常运行:你可以开始安装了。如果只有master节点在运行:则
Stella981 Stella981
3年前
ElasticSearch的Gateway及存储原理
ES里有一个叫做gateway的东西,今天抽空理一下,前面翻译ES的一篇博文叫做“搜索引擎与时间机器(https://www.oschina.net/action/GoToLink?urlhttp%3A%2F%2Flog.medcl.net%2Fitem%2F2010%2F09%2Ftranslationsearchengineandthet
Wesley13 Wesley13
3年前
ELK初探
EKL核心组成1.ElasticSearch开源分布式搜索引擎,他的特点是分布式、零配置、自动发现、索引自动分片,索引副本机制,restful接口,多数据源,自动搜索负载。安装ElasticSearch  高可用,易扩展,支持集群(cluster),分片和复制(sharding和replicas)验证启动:curlXGETht
Stella981 Stella981
3年前
Elasticsearch 5.5 入门必会(一)
前言安装搜索引擎过程中,我遇到了很多坑!发出来让各位绕道而行,后面都是用ES关键字来代替Elasticsearch,后面的搭建和使用都是在centos6.8环境下,本人使用的ES是5.5.0的版本,JDK使用1.8版本。相关文章:     Elasticsearch5.5入门必会之Javaclien
Wesley13 Wesley13
3年前
JAVA读取不同编码格式的TXT文件
最近做一个全文检索的功能,要求在用户上传附件时获取其内容存入数据库,CSV,EXCEL,WORD,PPT都搞定了。剩余一个最简单的TXT文档,开始忽略了它还有不同编码,导致一些编码格式的文本乱码。兼容写法如下,一个判断文件头的方法搞定所有。privateStringgetCharset(StringfileName
Stella981 Stella981
3年前
Centos7安装Mesos
ApacheMesos官方文档只提供了源码安装方式,然而我尝试了几次,总是在某些阶段报错。而通过搜索引擎搜到的其他办法,也多少会遇到一些莫名其妙的错误。所以根据自己尝试的结果,整理了一个简单的方法。1,添加yum仓库rpmUvhhttp://repos.mesosphere.io/el/7/noarch/RPMS/mesosphere
block yandex bot
是Yandex搜索引擎的爬虫。在这篇文章中,我总结了所有的Useragent,通过那篇文章,我们可以看出有些Yandexbot遵守,有些不遵守robots.txt协议。我们需要屏蔽yandexbot(blockyandexbot)可以通过robots.txt和IP的方式屏蔽,下面分别来讲。通过robots.txt