Stella981 Stella981
3年前
SparkSql学习1 —— 借助SQlite数据库分析2000万数据
总所周知,Spark在内存计算领域非常强势,是未来计算的方向。Spark支持类Sql的语法,方便我们对DataFrame的数据进行统计操作。但是,作为初学者,我们今天暂且不讨论Spark的用法。我给自己提出了一个有意思的思维游戏:Java里面的随机数算法真的是随机的吗?好,思路如下:1\.取样,利用Java代码随机生成2000万条01
Wesley13 Wesley13
3年前
# URL异常检测
(IsolationForest无监督)这个算法是随机森林的推广。iTree树构造:随机选一个属性,再随机选该特征的一个值,对样本进行二叉划分,重复以上操作。iTree构建好了后,就可以对数据进行预测啦,预测的过程就是把测试记录在iTree上走一下,看测试记录落在哪个叶子节点。iTree能有效检测异常的假设是:异常点一般都是非常稀有的,在iTree中会
Stella981 Stella981
3年前
SOFA 源码分析 — 负载均衡和一致性 Hash
!(https://oscimg.oschina.net/oscnet/76a9ee48bb4c7f7b344343922f049224d4d.png)前言SOFA内置负载均衡,支持5种负载均衡算法,随机(默认算法),本地优先,轮询算法,一致性hash,按权重负载轮询(不推荐,已被标注废弃)。一起看看他们的实现(重点还是一致性
Wesley13 Wesley13
3年前
Java实现随机红包分配算法 [非均值波动]
关于红包算法,其实笔者早在16年某个直播平台实现过。论彻底随机性,网上可刊资料少之又少。在网上查阅的资料大部分都是非随机分配、均值波动分配等方案,那么以下笔者来分享一套红包的分配算法。介绍下网上惯用的做法:1、均值波动分配  即根据总金额和数量,计算出平均值,为每个红包的金额进行上下随机波动,计算出所有红包的金额。2、随机金额分配 
Stella981 Stella981
3年前
Dubbo的负载均衡算法
\toc\1简介Dubbo提供了4种负载均衡机制:权重随机算法:RandomLoadBalance最少活跃调用数算法:LeastActiveLoadBalance一致性哈希算法:ConsistentHashLoadBalance加权轮询算法:RoundRobinLoadBalan
Stella981 Stella981
3年前
GPU上的随机森林:比Apache Spark快2000倍
作者|AaronRichter编译|VK来源|TowardsDataScience随机森林是一种机器学习算法,以其鲁棒性、准确性和可扩展性而受到许多数据科学家的信赖。该算法通过bootstrap聚合训练出多棵决策树,然后通过集成对输出进行预测。由于其集成特征的特点,随机森林是一种可以在分布式计算环境中实现的算法。树可以在集群中跨进程和机器并
分布式系统的主键生成方案对比 | 京东云技术团队
UUID​UUID(通用唯一识别码)是由32个十六进制数组成的无序字符串,通过一定的算法计算出来。为了保证其唯一性,UUID规范定义了包括网卡MAC地址、时间戳、名字空间(Namespace)、随机或伪随机数、时序等元素,以及从这些元素生成UUID的算法。
赵颜 赵颜
10个月前
什么是安全芯片?为什么可以应用在加密卡上?
安全芯片是指芯片内带有微处理器CPU、随机数发生器、硬件密码算法、存储单元(包括随机存储器RAM、程序存储器ROM(FLASH)、用户数据存储器EEPROM)以及芯片操作系统COS的智能芯片,相当于一台微型计算机,不仅具有数据存储功能,同时具有命令处理和数