Mxnet Scala Package 学习笔记 一

Stella981
• 阅读 714

前言

    从刚开始接触Mxnet这个框架到现在已经大概四个月了。Mxnet最吸引我的地方就是它提供了

很多语言的接口,其中有Scala(my favorite),这是我从Caffe转过来的原因之一。

Mxnet是我第一个参与的开源项目,可以说这四个月来我学到了很多东西。

    本文的其中目的在于介绍一下如何用 Mxnet Scala 包来开发自己的 deep learning 的应用,有

哪些坑需要注意的,最后就是安利一下Mxnet 这个框架了。

    然后,还有就是Mxnet Scala Package已经开始 Spark了,有兴趣可以尝试一下。

正文

Eclipse配置Mxnet scala的开发环境

    这里我是直接用ScalaIDE来开发。下面介绍如何配置开发环境,过程很简单,就是有些小细

节需要注意。

编译Mxnet Scala 包

    首先要做的就是要编译出Mxnet的jar包了,环境配置具体可以看官方网站上的流程,这里就

不重复了,https://mxnet.readthedocs.io/en/latest/how_to/build.html,在 Ubuntu的配置按照流

程来的话一般没什么问题,CentOs的话就有点麻烦,但还是可以的。

    我的环境是 atlas + cuda 7.5 + cudnn v4 + opencv 3.0。atlas + cuda 8.0 + opencv 3.0。然后修改一下make/config.mk,make -j4 就行了,编译完Mxnet之后就开始编译Scala 包了。

    首先要安装 JDK8,http://tecadmin.net/install-oracle-java-8-jdk-8-ubuntu-via-ppa/ 。

    然后下载maven,https://maven.apache.org/download.cgi,目前版本是 3.3.9。

    下载解压完成之后,在.bashrc文件中加入以下两句,然后 source ~/.bashrc:

    export M2_HOME=~/apache-maven-3.3.9
    export PATH=$M2_HOME/bin:$PATH

    假设maven目录在home目录下。然后只要能够找到mvn这个可执行文件就行了。

    然后在 Mxnet 目录下执行,make scalapkg即可,然后可以泡杯茶等了,第一次编译scala包

的话,会下载很多的jar文件,都放在 ~/.m2/repository/目录下。之后再编译的话就很快了。编

译完成之后,在 scala-package/assembly 目录下,如果你是在config.mk中设置了GPU支持的

话,那么编译好的jar包就在 linux-x86_64-gpu/target目录下。

配置ScalaIDE

    这里我们先新建一个Scala Project,MxnetTest 。

    Mxnet Scala Package 学习笔记 一     

      然后删除Scala library,接着导入 Mxnet scala jar 包。直接 Add External JARs,

       导入 assembly目录下的          

                mxnet-full_2.10-linux-x86_64-gpu-0.1.2-SNAPSHOT.jar

                mxnet-full_2.11-linux-x86_64-gpu-0.1.2-SNAPSHOT.jar

跑个Scala的例子 --- NeuralStyle

    首先把scala-package/examples/src/main/scala/ml/dmlc/mxnet/examples/neuralstyle

    下的两个Scala文件复制到 工程src目录下,然后稍微修改一下,把文件的第一行package

去掉。然后就是导入所有依赖包,直接暴力把 scala-package/examples/target/classes/lib

目录下的所有Jar包导入即可。

    还有把 scala-package/examples/src/main/resources/log4j.properties文件拷贝到工程

bin目录下。

    然后编译一下应该就可以准备运行了。如果想看看命令行怎么运行的话可以看看

scala-package/examples/scripts 目录下的 run_neuralstyle.sh 脚本。

    运行所需的图片和模型可以 example/neural-style/download.sh 这个脚本来下载。

    右键NeuralStyle -> Run As -> Run Configurations,在Arguments 那一栏做如下设置:

     Mxnet Scala Package 学习笔记 一

    然后 run 即可。跑到后面大概要占 2G左右的显存。如果显存不够的话,可以把

--max-long-edge 这个参数设置为小一些。

    大概运行600次迭代之后就能得到最终的结果了,和Python的例子给出的结果有点差距,效

果还能看,之前其实也是根据Python的例子改写成 Scala版本的,当时大概用了一周时间吧,

写好代码之后还要调下参数等等。

    Mxnet Scala Package 学习笔记 一     

用Mxnet实现矩阵分解(Matrix Factorization With Mxnet)

    用Mxnet Scala 包实现一下矩阵分解,就是推荐系统常用到的矩阵分解,主要是参考这位大

神的博客,http://www.jianshu.com/p/ebf7bf53ed3e

还有http://katbailey.github.io/post/matrix-factorization-with-tensorflow/

    用到的数据集的下载地址:http://grouplens.org/datasets/movielens/100k/

    由于目前的官方的Mxnet Scala 包还没有支持 sumAxis这个操作,因为实现这个矩阵分解的

功能需要用到这个operator,所以可以修改自己的Mxnet Scala源码,向Symbol.scala 中 object

Symbol 这个伴生对象加入

以下函数:

/**
 * Take sum of the src in the given axis
 *
 * Parameters
 * ----------
 * data : Symbol. Input data to sum.
 * axis : int, default=-1, means to reduce all the dimensions.
 */
def sumAxis(name: String = null, attr: Map[String, String] = null): SymbolCreateNamedFunc = {
  createFromNamedSymbolsNoCheck("sum_axis", name, attr)
}

然后重新编译一下Scala 包即可。

    下面是完整的实现代码:

     https://github.com/Ldpe2G/DeepLearning/tree/master/Mxnet-Scala/MatrixFactorization

   这里实现上和上面那篇博客有些不一样的地方,最终的结果,以RMSE这个指标来衡量的话,

可以达到 0.95x左右,比博客提到的0.8x差一点。这里如果不想改代码直接跑的话,可以把下

载的ml-100k.zip这个数据集放到project目录下的datas目录里解压。

    其实通过跟着实现一遍代码,我学会了如何利用深度学习框架来做矩阵分解了,感觉真的很

神奇。

    最后希望这篇博客能够对想了解 Mxnet Scala Package 开发的读者提供一些帮助。

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
待兔 待兔
3个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Karen110 Karen110
3年前
​一篇文章总结一下Python库中关于时间的常见操作
前言本次来总结一下关于Python时间的相关操作,有一个有趣的问题。如果你的业务用不到时间相关的操作,你的业务基本上会一直用不到。但是如果你的业务一旦用到了时间操作,你就会发现,淦,到处都是时间操作。。。所以思来想去,还是总结一下吧,本次会采用类型注解方式。time包importtime时间戳从1970年1月1日00:00:00标准时区诞生到现在
Stella981 Stella981
3年前
Android So动态加载 优雅实现与原理分析
背景:漫品Android客户端集成适配转换功能(基于目标识别(So库35M)和人脸识别库(5M)),导致apk体积50M左右,为优化客户端体验,决定实现So文件动态加载.!(https://oscimg.oschina.net/oscnet/00d1ff90e4b34869664fef59e3ec3fdd20b.png)点击上方“蓝字”关注我
Wesley13 Wesley13
3年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Wesley13 Wesley13
3年前
35岁是技术人的天花板吗?
35岁是技术人的天花板吗?我非常不认同“35岁现象”,人类没有那么脆弱,人类的智力不会说是35岁之后就停止发展,更不是说35岁之后就没有机会了。马云35岁还在教书,任正非35岁还在工厂上班。为什么技术人员到35岁就应该退役了呢?所以35岁根本就不是一个问题,我今年已经37岁了,我发现我才刚刚找到自己的节奏,刚刚上路。
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
9个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这