Irene181 Irene181
4年前
手把手教你用Scrapy爬虫框架爬取食品论坛数据并存入数据库
大家好,我是杯酒先生,这是我第一次写这种分享项目的文章,可能很水,很不全面,而且肯定存在说错的地方,希望大家可以评论里加以指点,不胜感激!一、前言网络爬虫(又称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。百度百科    说人话就是,爬虫是用来海量规则化获取数据
Irene181 Irene181
4年前
手把手教你用Scrapy爬虫框架爬取食品论坛数据并存入数据库
大家好,我是杯酒先生,这是我第一次写这种分享项目的文章,可能很水,很不全面,而且肯定存在说错的地方,希望大家可以评论里加以指点,不胜感激!一、前言网络爬虫(又称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。百度百科    说人话就是,爬虫是用来海量规则化获取数据
Stella981 Stella981
3年前
IM开发基础知识补课(三):快速理解服务端数据库读写分离原理及实践建议
本文正文部分引用了58同城架师沈剑的文章,非常感谢他的分享。1、前言IM应用从服务端数据的角度来看,它是一种很特殊的应用场景,抛开基础数据、增值业务和附属功能不谈,单从IM聊天工具的立身之本——聊天数据来说,理论上是不需要在服务端存储的(或者说只需要短暂存储——比如离线消息,上线即拉走),这也是为什么微信在前段时间号称绝不存储用户聊天数
Stella981 Stella981
3年前
2019百度阿里Java面试题(基础+框架+数据库+分布式+JVM+多线程)
前言很多朋友对面试不够了解,不知道如何准备,对面试环节的设置以及目的不够了解,因此成功率不高。通常情况下校招生面试的成功率低于1%,而社招的面试成功率也低于5%,所以对于候选人一定要知道设立面试的初衷以及每个环节的意义,有的放矢...!(https://pic4.zhimg.com/v2627aa38e467431e36038f2d7c22a8
可莉 可莉
3年前
2019百度阿里Java面试题(基础+框架+数据库+分布式+JVM+多线程)
前言很多朋友对面试不够了解,不知道如何准备,对面试环节的设置以及目的不够了解,因此成功率不高。通常情况下校招生面试的成功率低于1%,而社招的面试成功率也低于5%,所以对于候选人一定要知道设立面试的初衷以及每个环节的意义,有的放矢...!(https://pic4.zhimg.com/v2627aa38e467431e36038f2d7c22a8
Wesley13 Wesley13
3年前
2天完成17TB数据量迁移,华为云数据库是如何做的?
摘要:童年时候,我们会对着墙上挂着的中国地图,来认识一处处山川河流和城市人文。如今,数字化时代下,传统的地图已经不能满足人们的需求,如何获取各种丰富的地理内容和实时动态信息成为现代人普遍的地理信息诉求。作为国家基础地理信息公共服务平台,天地图集成了来自国家、省、市(县)各级测绘地理信息部门,以及相关政府部门、企事业单位、社会团体、公众的地理信息
可莉 可莉
3年前
2021最新发布百度云面经总结:Java并发+Redis+数据库+分布式
!ç¾åº¦äºJavaç¤¾æææ¯3é¢é¢ç»æ»ç»ï¼Javaå¹¶åRedisæ°æ®åºåå¸å¼(https://imgblog.csdnimg.cn/img_convert/4e2bbd90caba502199a20ad25fb6381a.png)
贾蔷 贾蔷
1个月前
CSP-J 2019公交换乘题解析:基于队列优化的动态规划代码详解
一、题目解读CSPJ2019年的“公交换乘”题目(洛谷P5661)要求模拟地铁与公交交替出行的费用计算。题目核心在于地铁消费会产生优惠券,而公交可在45分钟内使用优惠券抵扣车费。需要处理n条出行记录,优化总费用。该问题考察对时间窗口与动态资源管理的理解,需
动态知识库构建:知识库边问答边构建完善
数字时代的知识管理早已突破“建库检索”的静态模式,转向“边问答边生长”的动态范式。这种模式下,每一次用户提问、每一次系统应答、每一次人工修正,都成为知识库自我迭代的养分。然而,当海量交互数据如潮水般涌入,如何从碎片化、多噪声的信息流中精准识别高价值知识,成
数据治理的长效机制
本文分享自天翼云开发者社区《》,作者:徐东数据治理遇到的困难数据治理是一个复杂而又富有挑战性的工作,需要各级管理人员和业务部门的积极参与和协作。虽然数据治理的目标“协同、降本、提效、创新”看似简单明了,但在实际操作中却会遇到各种各样的问题。问题1:组织运行