Irene181 Irene181
3年前
手把手教你用Scrapy爬虫框架爬取食品论坛数据并存入数据库
大家好,我是杯酒先生,这是我第一次写这种分享项目的文章,可能很水,很不全面,而且肯定存在说错的地方,希望大家可以评论里加以指点,不胜感激!一、前言网络爬虫(又称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。百度百科    说人话就是,爬虫是用来海量规则化获取数据
Irene181 Irene181
3年前
手把手教你用Scrapy爬虫框架爬取食品论坛数据并存入数据库
大家好,我是杯酒先生,这是我第一次写这种分享项目的文章,可能很水,很不全面,而且肯定存在说错的地方,希望大家可以评论里加以指点,不胜感激!一、前言网络爬虫(又称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。百度百科    说人话就是,爬虫是用来海量规则化获取数据
Stella981 Stella981
2年前
SpringBoot实现浏览器端大文件分块上传
1 背景用户本地有一份txt或者csv文件,无论是从业务数据库导出、还是其他途径获取,当需要使用蚂蚁的大数据分析工具进行数据加工、挖掘和共创应用的时候,首先要将本地文件上传至ODPS,普通的小文件通过浏览器上传至服务器,做一层中转便可以实现,但当这份文件非常大到了10GB级别,我们就需要思考另一种形式的技术方案了,也就是本文要阐述的方案。技术要求主要
Stella981 Stella981
2年前
Leaf:美团分布式ID生成服务开源
Leaf是美团基础研发平台推出的一个分布式ID生成服务,名字取自德国哲学家、数学家莱布尼茨的一句话:“Therearenotwoidenticalleavesintheworld.”Leaf具备高可靠、低延迟、全局唯一等特点。目前已经广泛应用于美团金融、美团外卖、美团酒旅等多个部门。具体的技术细节,可参考此前美团技术博客的一篇文章:《Lea
Wesley13 Wesley13
2年前
2019比原链全球开发者大会落幕:高举开源旗帜,聚焦区块链应用落地
北京时间8月25日,2019比原链全球开发者大会在美国旧金山FortMasonCowellTheater成功举办。会议吸引了来自美国、俄罗斯、印度、比利时、加拿大、巴西、赞比亚、委内瑞拉等多个国家的技术达人,参赛项目涉及稳定币支付系统、供应链金融、合约开发工具、教育科技等多个领域。最终,基于比原链开发的支付平台Paypaw(贝爪)获得2019比原链全球
Stella981 Stella981
2年前
DolphinDB与InfluxDB对比测试报告
DolphinDBDatabase是一款分析型的分布式时序数据库,内置处理流式数据处理引擎,具有内置的并行和分布式计算的功能,并提供分布式文件系统,支持集群扩展。DolphinDB以C编写,响应速度极快。提供类似于Python的脚本语言对数据进行操作,支持类标准SQL的语法。提供其它常用编程语言的API,方便与已有应用程序集成。在金融领域中的历史数据
Easter79 Easter79
2年前
SpringBoot实现浏览器端大文件分块上传
1 背景用户本地有一份txt或者csv文件,无论是从业务数据库导出、还是其他途径获取,当需要使用蚂蚁的大数据分析工具进行数据加工、挖掘和共创应用的时候,首先要将本地文件上传至ODPS,普通的小文件通过浏览器上传至服务器,做一层中转便可以实现,但当这份文件非常大到了10GB级别,我们就需要思考另一种形式的技术方案了,也就是本文要阐述的方案。技术要求主要
不是海碗 不是海碗
1年前
用手机号码归属地 API 开发的应用推荐
引言手机号码归属地API是一种提供手机号码归属地信息的接口,通过该接口,可以获取手机号码所属的省份、城市、运营商等信息。它可以帮助企业更好地了解客户,为个性化推荐和精准广告投放提供数据支持。作为一种数据服务,手机号码归属地API在电商、金融、社交、广告等领
如何有效管理爬虫流量?
据国际知名金融广告服务平台提供商Dianomi的报告《2018Robottrafficreport》的数据,在互联网上人类流量仅仅占了48.2%,也就是说,一个页面的10000个点击里面,大约5100个来自机器人。在航旅票务等行业,热门数据接口中甚至有超过95%的流量是来自爬虫。如何有效管理爬虫流量,是当下业务安全面临的问题。
小万哥 小万哥
3个月前
NumPy 正态分布与 Seaborn 可视化指南
正态分布(高斯分布)是重要的概率模型,具有钟形曲线特征,由均值μ和标准差σ描述。NumPy的random.normal()可生成正态分布随机数,Seaborn库方便绘制分布图。正态分布广泛应用于统计学、机器学习、金融和工程等领域。练习包括生成正态分布数据、比较不同标准差影响及模拟考试成绩计算平均分和标准分。