Wesley13 Wesley13
3年前
java爬虫入门
通用网络爬虫又称全网爬虫(ScalableWebCrawler),爬行对象从一些种子URL扩充到整个Web,主要为门户站点搜索引擎和大型Web服务提供商采集数据。今天我写的主要是一些皮毛入门现在来看下我们的pom依赖<projectxmlns"http://maven.apache.org/POM/4.0.0"xmln
Stella981 Stella981
3年前
Kubernetes 集群日志管理
Kubernetes开发了一个Elasticsearch附加组件来实现集群的日志管理。这是一个Elasticsearch、Fluentd和Kibana的组合。Elasticsearch是一个搜索引擎,负责存储日志并提供查询接口;Fluentd负责从Kubernetes搜集日志并发送给Elasticsearch;Kibana提供了一个
Wesley13 Wesley13
3年前
4. 安装ingress
ingressnginx安装这里假设你已经了解了ingressnginx,如果你还没了解请询问搜索引擎。这篇文章只能让你快速的部署他们。安装之前安装之前需要确保你的集群正常运行或主节点再运行:如果集群正常运行:你可以开始安装了。如果只有master节点在运行:则
Stella981 Stella981
3年前
ElasticSearch的Gateway及存储原理
ES里有一个叫做gateway的东西,今天抽空理一下,前面翻译ES的一篇博文叫做“搜索引擎与时间机器(https://www.oschina.net/action/GoToLink?urlhttp%3A%2F%2Flog.medcl.net%2Fitem%2F2010%2F09%2Ftranslationsearchengineandthet
Wesley13 Wesley13
3年前
ELK初探
EKL核心组成1.ElasticSearch开源分布式搜索引擎,他的特点是分布式、零配置、自动发现、索引自动分片,索引副本机制,restful接口,多数据源,自动搜索负载。安装ElasticSearch  高可用,易扩展,支持集群(cluster),分片和复制(sharding和replicas)验证启动:curlXGETht
Wesley13 Wesley13
3年前
IM消息系统的设计和实现
点击关注上方“JAVA开发大本营”,设为“置顶或星标”,第一时间送达技术干货。!(https://oscimg.oschina.net/oscnet/6cc35fe4f21c47a2b27b53fbdd52d064.png)全文预计阅读6分钟!(https://osci
Wesley13 Wesley13
3年前
JAVA读取不同编码格式的TXT文件
最近做一个全文检索的功能,要求在用户上传附件时获取其内容存入数据库,CSV,EXCEL,WORD,PPT都搞定了。剩余一个最简单的TXT文档,开始忽略了它还有不同编码,导致一些编码格式的文本乱码。兼容写法如下,一个判断文件头的方法搞定所有。privateStringgetCharset(StringfileName
block yandex bot
是Yandex搜索引擎的爬虫。在这篇文章中,我总结了所有的Useragent,通过那篇文章,我们可以看出有些Yandexbot遵守,有些不遵守robots.txt协议。我们需要屏蔽yandexbot(blockyandexbot)可以通过robots.txt和IP的方式屏蔽,下面分别来讲。通过robots.txt
京东云开发者 京东云开发者
6个月前
Elasticearch索引mapping写入、查看、修改
作者:京东物流陈晓娟一、ESElasticsearch是一个流行的开源搜索引擎,它可以将大量数据快速存储和检索。Elasticsearch还提供了强大的实时分析和聚合查询功能,数据模式更加灵活。它不需要预先定义固定的数据结构,可以随时添加或修改数据字段,而