surprise库官方文档分析(二):使用预测算法

Easter79
• 阅读 491

1、使用预测算法

Surprise提供了一堆内置算法。所有算法都派生自AlgoBase基类,其中实现了一些关键方法(例如predictfittest)。可以在prediction_algorithms包文档中找到可用预测算法的列表和详细信息 。

每个算法都是全局Surprise命名空间的一部分,因此您只需要从Surprise包中导入它们的名称,例如:

from surprise import KNNBasic
algo = KNNBasic()

这些算法中的一些可以使用基线估计,一些可以使用相似性度量

(1)、基线估计配置

可以使用两种不同的方式估算基线:

  • 使用随机梯度下降(SGD)。
  • 使用交替最小二乘法(ALS)。

可以使用bsl_options 在创建算法时传递的参数来配置基线的计算方式。此参数是一个字典,其中的键'method'指示要使用的方法。可接受的值是'als'(默认)和'sgd'。根据其值,可以设置其他选项。

对于ALS:

reg_i:item的正则化参数。默认为10.

reg_u:user的正则化参数。默认为15.

n_epochs:ALS过程的迭代次数。默认为10.

对于SGD:

reg:优化的成本函数的正则化参数。默认为0.02.

learning_rate:SGD的学习率。默认为0.005.

n_epochs:SGD过程的迭代次数。默认为20.

不论SGD还是ALS,损失量默认为0.

例子:

print('Using ALS')
bsl_options = {'method': 'als',
               'n_epochs': 5,
               'reg_u': 12,
               'reg_i': 5
               }
algo = BaselineOnly(bsl_options=bsl_options)


print('Using SGD')
bsl_options = {'method': 'sgd',
               'learning_rate': .00005,
               }
algo = BaselineOnly(bsl_options=bsl_options)

#请注意,某些相似性度量可能会使用基线,例如 pearson_baseline相似性。无论基线是否用于实际预测r,配置的工作方式都相同

bsl_options  =  { 'method' : 'als' ,
               'n_epochs' : 20 ,
               } 
sim_options  =  { 'name' : 'pearson_baseline' } 
algo  =  KNNBasic (bsl_options = bsl_options , sim_options = sim_options )

(2):相似度配置

许多算法使用相似性度量来估计评级。它们的配置方式与基线评级类似:您只需sim_options在创建算法时传递参数即可。此参数是包含以下(所有可选)键的字典:

name:要使用的相似性的名称,如similarities模块中所定义 。默认是'MSD'

user_based:是否在用户之间或项目之间计算相似性。这对预测算法的性能有很大影响。默认是True

min_support:共同项目的最小数目(当'user_based''True')或普通用户的最小数目(当'user_based''False'用于相似性)不为零

shrinkage:要应用的收缩参数(仅与pearson_baseline相似性相关 )。默认值为100。

用法:

sim_options = {'name': 'cosine',
               'user_based': False  # compute  similarities between items
               }
algo = KNNBasic(sim_options=sim_options)

sim_options = {'name': 'pearson_baseline',
               'shrinkage': 0  # no shrinkage
               }
algo = KNNBasic(sim_options=sim_options)
点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
待兔 待兔
2个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Stella981 Stella981
2年前
KVM调整cpu和内存
一.修改kvm虚拟机的配置1、virsheditcentos7找到“memory”和“vcpu”标签,将<namecentos7</name<uuid2220a6d1a36a4fbb8523e078b3dfe795</uuid
Easter79 Easter79
2年前
Twitter的分布式自增ID算法snowflake (Java版)
概述分布式系统中,有一些需要使用全局唯一ID的场景,这种时候为了防止ID冲突可以使用36位的UUID,但是UUID有一些缺点,首先他相对比较长,另外UUID一般是无序的。有些时候我们希望能使用一种简单一些的ID,并且希望ID能够按照时间有序生成。而twitter的snowflake解决了这种需求,最初Twitter把存储系统从MySQL迁移
Wesley13 Wesley13
2年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
2年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Wesley13 Wesley13
2年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
为什么mysql不推荐使用雪花ID作为主键
作者:毛辰飞背景在mysql中设计表的时候,mysql官方推荐不要使用uuid或者不连续不重复的雪花id(long形且唯一),而是推荐连续自增的主键id,官方的推荐是auto_increment,那么为什么不建议采用uuid,使用uuid究
Python进阶者 Python进阶者
8个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这
Easter79
Easter79
Lv1
今生可爱与温柔,每一样都不能少。
文章
2.8k
粉丝
5
获赞
1.2k