CuterCorley CuterCorley
4年前
Python 不用selenium 带你高效爬取京东商品评论
一、项目说明1.项目背景一天,一朋友扔给我一个链接,让我看看这个歌商品的所有评论怎么抓取,我打开一看,好家伙,竟然有近300万条评论,不是一个小数目啊。但是仔细一看,原来有234万的评论是默认好评,还是有少部分是有价值的评价的。经过进一步观察,可以看到显然,网页中显示的只有100页数据,每页显示10条,通常可以用selenium点击每一页然后获取
皕杰报表换行和行间距
换行想在皕杰报表单元格里输入多段文字,每段文字能够自动换行,段与段之间自动换行,且每段开头要有两个空格。乍一看有点晕,其实你只要记住拼串就行了,通过拼串和换行符就可以实现多段文字的输入,因为在皕杰报表里每段文字是根据单元格大小自动换行的,只要一次把整段文字输入完即可。换行符:char(10)空格怎么实现呢?拼上两个空格就行了,当然要用引号引上。行间距在报表
CuterCorley CuterCorley
4年前
商业数据分析从入门到入职(1)商业数据分析综述
@toc一、商业数据分析概念1.商业数据分析引入先列举几个案例:(1)请估计一下2020年八月份在北京卖出有多少双鞋子?显然,这是一个很开放的问题,并不像在学校里的题目都有标准答案,是需要经过自己的思考、定义和分析的。(2)Corley主营在网上卖手机壳,根据销售数据,发现8月份比7月份购买手机壳的顾客数量下降了10%,怎么回事?这也是一个开放
Aidan075 Aidan075
4年前
数说:这只程序员组建的乐队为何能进HOT5?
上周六晚,爱奇艺的独家综艺《乐队的夏天》总决赛终于落下了帷幕,虽然决赛过程有些“曲折”,但是我最喜欢的刺猬乐队,仍然凭借自己的硬实力,最终排在第二名!值得一提的是,这只乐队的吉他手兼主唱也是一位程序员。刺猬乐队其实成立10多年了,很有实力。但是在老牌乐队云集的这次比赛中,第一次31进16时仅仅排在第12名,那么他又是如何逆风翻盘的?让我来复盘
Wesley13 Wesley13
3年前
Java避坑宝典《Java业务开发常见错误100例》上线了
写这个专栏的缘起之前我写过一篇博客:《朱晔的互联网架构实践心得S2E2:写业务代码最容易掉的10种坑》,引起的关注还是挺多的。后来和极客时间的编辑一拍即合决定以这个为题写一个专栏。其实所谓坑就是容易忽略但是不容易发现的问题,大部分生产事故都是发布、运维相关的配置引起,真正代码中的问题上线后产生问题的坑并不多,虽然我接触过很多生产事故,但
Stella981 Stella981
3年前
Python的数据类型
计算机的工作就是处理数据,而输入给计算机的数据必须没有歧义,计算机才能按照人的意志工作。为了保证数据的非歧义,就要对数据进行分类,这就是数据类型。比如交给计算机如下一些东西:10,100,101那末它是什么呢?是一个对一个东西的编码,还是用于会计计算的数字?是二进制数字还是八进制、十进制或是十六进制数呢,这都要给计算机表达清楚,否则计算机会无所适从
Wesley13 Wesley13
3年前
2012 国庆中秋黄金周流水帐
去程:每到有长假,就得回家,不能安排其他活动,一年难得回家一两次,再有困难也得克服,何况交通都算不上是困难。29日下午就前往惠州,在老同学家住了一宿。没想到堵车提前到来,原计划六点来钟就能到的,搞到了10点钟。最让我没想到的是居然被安排在一张一米五的床上跟老同学同睡,每每想起半夜他那只偷摸我屁股的手,就狂吐不止。。。等等,我去吐一下。。。可
Wesley13 Wesley13
3年前
PHP多进程与MySQL的高并发瓶颈处理
最近开发一个项目。客户端每隔10秒提交100行数据给服务端,服务端查重后写入。客户端约在几万左右,提交数据比较集中,不考虑读数据的问题。现在的设计是:数据库按客户端进行分表。每个表的数据量不高。服务端获得数据后,先插入redis队列,然后在通过定时任务插入数据库。问题是:1、服务端提供给客户端的接口,是否能满足几千上万的客
Stella981 Stella981
3年前
Hadoop Hive基础sql语法
1.DDL操作1.建表2.3.创建简单表4.创建外部表5.建分区表6.建Bucket表7.创建表并创建索引字段ds8.复制一个空表9.显示所有表10.按正条件正则表达式显示表11.修改表结构12.表添加一列13.添加一列并增加列字段注释14.更改表名15.删除列16.增加删除分区17.重命名表18.修改列的名字类型位置注
天翼云践行“双碳”目标 “东数西算”绘画绿色发展新蓝图
4月22日,是世界第53个地球日,也是中国提出“双碳”目标之后的第二个世界地球日。作为中国全面展开碳达峰、碳中和相关工作的第二年,如何实现“双碳”目标已成为今年一个广泛而深刻的社会议题,绿色低碳正成为各行业发展的必选题。研究机构数据显示,过去十年,我国数据中心整体用电量以每年超过10%的速度递增。截至2020年,数据中心约占我国用电量的2.7%。据IDC预计