Wesley13 Wesley13
3年前
SAS统计初学1
卡方检验;卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率(构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以
大数据
课程安排 一、大数据概述 二、大数据处理架构Hadoop 三、分布式文件系统HDFS 四、分布式数据库HBase 五、MapReduce 六、Spark 七、IPythonNotebook运行PythonSpark程序 八、PythonSpark集成开发环境 九、PythonSpark决策树二分类与多分类 十、PythonSpark支持向量机 十一
Wesley13 Wesley13
3年前
MXNET:丢弃法
除了前面介绍的权重衰减以外,深度学习模型常常使用丢弃法(dropout)来应对过拟合问题。方法与原理为了确保测试模型的确定性,丢弃法的使用只发生在训练模型时,并非测试模型时。当神经网络中的某一层使用丢弃法时,该层的神经元将有一定概率被丢弃掉。设丢弃概率为$p$。具体来说,该层任一神经元在应用激活函数后,有$p$的概率自乘0,有
Stella981 Stella981
3年前
ClickHouse数据库数据定义手记
前提前面一篇文章已经很详细地介绍了ClickHouse中每种数据类型的定义和基本使用,这篇文章会详细地介绍ClickHouse中的DDL和DML,很多操作区别于传统的DBMS,特别是代价巨大的DELETE和UPDATE操作。接下来开始吧💪💪❝一般情况下,笔者建议ClickHouse的关键字全用大写,这
Stella981 Stella981
3年前
ElasticSearch 创建索引、插入数据、修改数据、删除数据
创建索引PUTdemoindex返回{"demoindex":{"settings":{"index":{"routing":{"allocation":{"incl
Stella981 Stella981
3年前
Batch Normalization的理解
BatchNorm可谓深度学习中非常重要的技术,不仅可以使训练更深的网络变容易,加速收敛,还有一定正则化的效果,可以防止模型过拟合。在很多基于CNN的分类任务中,被大量使用。但我最近在图像超分辨率和图像生成方面做了一些实践,发现在这类任务中,BatchNorm的表现并不好,加入了BatchNorm,反而使得训练速度缓慢,不稳定,甚至最后发散。
Stella981 Stella981
3年前
LightGBM 算法原理
LightGBM的动机GBDT(GradientBoostingDecisionTree)是机器学习中一个长盛不衰的模型,其主要思想是利用弱分类器(决策树)迭代训练以得到最优模型,该模型具有训练效果好、不易过拟合等优点。GBDT在工业界应用广泛,通常被用于点击率预测,搜索排序等任务而GBDT在每一次迭代的时
Stella981 Stella981
3年前
PostgreSQL数据库透明数据加密概述
最近一段时间,一直在和PostgreSQL社区合作开发TDE(Transparentdataencryption,透明数据加密)。研究了一些密码学相关的知识,并利用这些知识和数据库相结合。本文将会以数据库内核开发角度,从以下3个维度和大家讲述TDE。1.数据库当前面临的威胁模型2.加密策略描述,当前PostgreSQL社区目前的设计状态以及
Easter79 Easter79
3年前
Tensorflow.cifar_数据下载过程(数据输出)
1、环境:Win7x64、python3.7x64、tensorflow1.14、CPUi59400F2、3、 3.1、cifar10,没有数据,全新下载,下到默认目录(C:\\Users\\Administrator\\tensorflow\_datasets),全过程控制台输出:(20190903)"C:\ProgramF
Easter79 Easter79
3年前
TensorFlow之tf.nn.dropout():防止模型训练过程中的过拟合问题
一:适用范围:tf.nn.dropout是TensorFlow里面为了防止或减轻过拟合而使用的函数,它一般用在全连接层二:原理:  dropout就是在不同的训练过程中随机扔掉一部分神经元。也就是让某个神经元的激活值以一定的概率p,让其停止工作,这次训练过程中不更新权值,也不参加神经网络的计算。但是它的权重得保留