Python进阶者 Python进阶者
4个月前
爬取同样内容,xpath方法会比bs4要慢很多吗?
大家好,我是Python进阶者。一、前言前几天在Python白银交流群【沐子山树】问了一个Python网络爬虫的问题,问题如下:爬取同样内容,xpath方法会比bs4要慢很多吗?二、实现过程这里【Kimi】给了个思路如下:爬取网页内容时,使用XPath和B
京东云开发者 京东云开发者
4个月前
无任何数学公式理解大模型基本原理
前言为什么我们使用chatgpt问一个问题,回答时,他是一个字或者一个词一个词的蹦出来,感觉是有个人在输入,显得很高级,其实这这一个词一个词蹦不是为了高级感,而是他的实现原理决定的,下面我们看下为什么是一个一个蹦出来的大模型的本质特斯拉前AI总监Andre
京东云开发者 京东云开发者
4个月前
JDK8升级JDK11最全实践干货来了
1、前言截至目前(2023年),Java8发布至今已有9年,2018年9月25日,Oracle发布了Java11,这是Java8之后的首个LTS版本。那么从JDK8到JDK11,到底带来了哪些特性呢?值得我们升级吗?而且升级过程会遇到哪些问题呢?带着这些问
Python进阶者 Python进阶者
4个月前
python里有哪个好用的地址分析库嘛?
大家好,我是Python进阶者。一、前言前几天在Python铂金交流群【大写一个Y】问了一个Python数据处理的问题,问题如下:大佬们python里有哪个好用的地址分析库嘛?我现在用的是jionlp,会有一些错误,比如广东的“开平市长沙区”,会因为:长沙
Python进阶者 Python进阶者
4个月前
麻烦问一下xpath标签定位的这个索引是做什么用的?
大家好,我是Python进阶者。一、前言前几天在Python最强王者交流群【杨又串🍻】问了一个Python网络爬虫的问题,问题如下:老师,麻烦问一下xpath标签定位的这个索引是做什么用的,我听网课把这个知识点跳过了?二、实现过程后来【隔壁😼山楂】给了
京东云开发者 京东云开发者
4个月前
供应链大屏设计实践
概述在物流系统相关的大屏中,供应链大屏复杂度较高,数据链路较长,稳定性要求较高,当前大屏已经经过2年时间的打磨,整体表现已经相对比较成熟稳定。本文描述了物流供应链业务较复杂的业务场景下,结合了大数据计算相关技术,总结了实时监控大屏指标建设和服务构建的框架和
京东云开发者 京东云开发者
4个月前
分享一次海量数据平滑迁移实战
背景采购系统(BIP)在经历多年演进后,系统整体复杂度和数据量俨然已经极具规模,本文着重讨论海量数据的治理存储现状:工程端实时订单库采用MySQL5.5集群,其中主库配置为32C/48G/6000G,无法归档的订单热数据占磁盘空间85%(5.1T)痛点:6
小白学大数据 小白学大数据
4个月前
使用Scrapy进行网络爬取时的缓存策略与User-Agent管理
缓存策略的重要性缓存策略在网络爬虫中扮演着至关重要的角色。合理利用缓存可以显著减少对目标网站的请求次数,降低服务器负担,同时提高数据抓取的效率。Scrapy提供了多种缓存机制,包括HTTP缓存和Scrapy内置的缓存系统。HTTP缓存HTTP缓存是基于HT