Irene181 Irene181
4年前
详解4种类型的爬虫技术
导读:网络爬虫是一种很好的自动采集数据的通用手段。本文将会对爬虫的类型进行介绍。作者:赵国生王健来源:大数据DT(ID:hzdashuju)聚焦网络爬虫是“面向特定主题需求”的一种爬虫程序,而通用网络爬虫则是捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分,主要目的是将互联网上的网页下载到本地,形成一个互联网内
京东APP百亿级商品与车关系数据检索实践 | 京东云技术团队
本文主要讲解了京东百亿级商品车型适配数据存储结构设计以及怎样实现适配接口的高性能查询。通过京东百亿级数据缓存架构设计实践案例,简单剖析了jimdb的位图(bitmap)函数和lua脚本应用在高性能场景。希望通过本文,读者可以对缓存的内部结构知识有一定了解,并且能够以最小的内存使用代价将位图(bitmap)灵活应用到各个高性能实际场景。
分而治之--浅谈分库分表及实践之路 | 京东云技术团队
今天想聊一下分库分表,因为对于快速增长的业务来说,这个是无法回避的一环。之前我在做商城相关的SAAS系统,商品池是一个存储瓶颈,商品池数量会基于租户增长和运营变得指数级增长,短短几个月就能涨到几千万的数据,而运营半年后就可能过亿。而对于订单这种数据,也会跟着业务的成长,也会变得愈发巨大。
边缘计算简介
边缘计算是一种新兴的计算模型,旨在将计算能力推向离用户更近的边缘设备,以提供更快速、可靠和低延迟的计算服务。在传统的云计算模式中,大部分计算任务都是集中在远程的数据中心进行处理,这可能导致网络延迟和带宽瓶颈。边缘计算通过在离用户更近的边缘设备上执行计算任务,可以减少数据传输的时间和带宽消耗,提供更高效的计算体验。
数据堂 数据堂
2年前
语音技术的催化剂:语音标注平台的崛起
无可否认,人工智能正引领着人类社会的新一轮科技革命。而在这场革命中,语音识别技术无疑是一颗璀璨的明珠。然而,要让AI在语音识别方面表现出色,离不开语音标注平台这一不可或缺的催化剂。语音标注平台是数据科学与人类智慧的结合体。它扮演着数据标注的关键角色,将大量
浅谈分布式事务及解决方案 | 京东物流技术团队
1背景在讲述分布式事务的概念之前,我们先来回顾下事务相关的一些概念。1.1事务的基本概念就是一个程序执行单元,里面的操作要么全部执行成功,要么全部执行失败,不允许只成功一半另外一半执行失败的事情发生。例如一段事务代码做了两次数据库更新操作,那么这两次数据库
老知识复盘-SQL从提交到执行到底经历了什么 | 京东云技术团队
sql(StructuredQueryLanguage:结构化查询语言)是高级的费过程化编程语言,允许用户在高层数据结构上工作,是一种数据查询和程序设计语言,也是(ANSI)的一项标准的计算机语言.but…目前仍然存在着许多不同版本的sql语言,为了与ANSI标准相兼容,它们必须以相似的方式共同地来支持一些主要的命令(比如SELECT、UPDATE、DELETE、INSERT、WHERE等等).
系统整容纪:责任链设计模式的应用实战(爆灯了,研发工期由45天降为1天)
引言22年校招入职京东后,我一直在数据中台测试部从事测试开发的工作。毕业后,写的最多的文档是测试计划和测试报告,鲜有机会就自己的成长码字进行回顾和总结。借“up技术人”栏目,也终于是在工作之余回头望,对自己这近两年时光进行一个小总结。本文是一个大数据测试小
供应链大屏设计实践
概述在物流系统相关的大屏中,供应链大屏复杂度较高,数据链路较长,稳定性要求较高,当前大屏已经经过2年时间的打磨,整体表现已经相对比较成熟稳定。本文描述了物流供应链业务较复杂的业务场景下,结合了大数据计算相关技术,总结了实时监控大屏指标建设和服务构建的框架和