最近沉迷P5无法自拔,不过也遇上一些工作上的挑战
第一是用xshell连接虚拟机时执行python程序,如果写那种用raw_input的程序,只要输错了,按其他键都没法修改输错的内容,此时要用ctrl+backspace删除输错的字符。之前一直不知道这点结果每次都得重新跑程序。
第二是scikit learn的FeatureHasher,主要是拿来把字符串转换为numpy数组,这个函数主要有三种输入:dict、pair(tuple)和string(list),这里重点记录下string样式:
>>> hasher = sklearn.feature_extraction.FeatureHasher(n_features=10,
... non_negative=True,
... input_type='string')
>>> X_new = hasher.fit_transform([['a', 'b'], ['a', 'c']])
>>> X_new.toarray()
array([[ 1., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
[ 1., 0., 0., 0., 0., 0., 0., 1., 0., 0.]])
不过就算只输入一个字符串也可以用:
scikit learn还有其他的诸如词向量化的函数,不过我似乎暂时用不上。不过我想后面的项目会用到这个。而且我也得早点着手做SOA sklearn的项目。
暂时遇到的问题就是这样。大创项目必定是靠python3,找个时间补下python2迁移到python3的知识比较好
----------------------------------------------5月5日更新---------------------------------------------------
FeatureHasher的执行结果是不变的....对于特定字符必然只出一种结果