Irene181 Irene181
4年前
手把手教你用Scrapy爬虫框架爬取食品论坛数据并存入数据库
大家好,我是杯酒先生,这是我第一次写这种分享项目的文章,可能很水,很不全面,而且肯定存在说错的地方,希望大家可以评论里加以指点,不胜感激!一、前言网络爬虫(又称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。百度百科    说人话就是,爬虫是用来海量规则化获取数据
Irene181 Irene181
4年前
手把手教你用Scrapy爬虫框架爬取食品论坛数据并存入数据库
大家好,我是杯酒先生,这是我第一次写这种分享项目的文章,可能很水,很不全面,而且肯定存在说错的地方,希望大家可以评论里加以指点,不胜感激!一、前言网络爬虫(又称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。百度百科    说人话就是,爬虫是用来海量规则化获取数据
Stella981 Stella981
4年前
IM开发基础知识补课(三):快速理解服务端数据库读写分离原理及实践建议
本文正文部分引用了58同城架师沈剑的文章,非常感谢他的分享。1、前言IM应用从服务端数据的角度来看,它是一种很特殊的应用场景,抛开基础数据、增值业务和附属功能不谈,单从IM聊天工具的立身之本——聊天数据来说,理论上是不需要在服务端存储的(或者说只需要短暂存储——比如离线消息,上线即拉走),这也是为什么微信在前段时间号称绝不存储用户聊天数
Stella981 Stella981
4年前
2019百度阿里Java面试题(基础+框架+数据库+分布式+JVM+多线程)
前言很多朋友对面试不够了解,不知道如何准备,对面试环节的设置以及目的不够了解,因此成功率不高。通常情况下校招生面试的成功率低于1%,而社招的面试成功率也低于5%,所以对于候选人一定要知道设立面试的初衷以及每个环节的意义,有的放矢...!(https://pic4.zhimg.com/v2627aa38e467431e36038f2d7c22a8
Wesley13 Wesley13
4年前
2天完成17TB数据量迁移,华为云数据库是如何做的?
摘要:童年时候,我们会对着墙上挂着的中国地图,来认识一处处山川河流和城市人文。如今,数字化时代下,传统的地图已经不能满足人们的需求,如何获取各种丰富的地理内容和实时动态信息成为现代人普遍的地理信息诉求。作为国家基础地理信息公共服务平台,天地图集成了来自国家、省、市(县)各级测绘地理信息部门,以及相关政府部门、企事业单位、社会团体、公众的地理信息
可莉 可莉
4年前
2021最新发布百度云面经总结:Java并发+Redis+数据库+分布式
!ç¾åº¦äºJavaç¤¾æææ¯3é¢é¢ç»æ»ç»ï¼Javaå¹¶åRedisæ°æ®åºåå¸å¼(https://imgblog.csdnimg.cn/img_convert/4e2bbd90caba502199a20ad25fb6381a.png)
ClickHouse内幕(2)基础数据结构
ClickHouse以性能好被大家所熟知,而一个数据库的性能优化是一个庞大的系统性工程。本文着眼于ClickHouse内部的基础数据结构,以揭露ClickHouse性能优化的冰山一角。在软件工程中并不是所有的执行路径都需要优化,只有关键执行路径才需要花费大
性能优化之路总结
针对老项目,去年做了许多降本增效的事情,其中发现最多的就是接口耗时过长的问题,就集中搞了一次接口性能优化。本文将给小伙伴们分享一下接口优化的通用方案。一、接口优化方案总结1.批处理批量思想:批量操作数据库,这个很好理解,我们在循环插入场景的接口中,可以在批
记录一次SQL慢查询优化
作者:京东物流赫占星一、慢SqL发现在一次需求UAT上线后,本来在测试环境没问题的接口,UAT环境出现了接口超时,通过查询接口日志发现是SQL查询超时了,原因是UAT环境的数据量比测试环境大得多。一般来说,我们可以通过数据库本身的慢查询日志去定位出问题的慢
分布式架构基础
本文分享自天翼云开发者社区《》,作者:胡冲基础事务事务指的就是一个操作单元,在这个操作单元中的所有操作最终要保持一致的行为,要么所有操作都成功,要么所有的操作都被撤销本地事务本地事物其实可以认为是数据库提供的事务机制(ACID原则)分布式事务分布式事务指事