NLP 中的基础总结 - HelloWorld开发者社区

1．词

中文中，常规的词一般直接由分词工具切割开，如工具包结巴分词，组成短语，一些情况下也可以用单个字表示。英文中的词比较常见的是单个词，也有些情况会使用英文词组

1.1 词的预处理

一般情况下，对于英文文本，首先需要转换时态，三单这种词语的变换，首部大写字母转换小写，有时还需要对单词进行拼写检查。

1.2 停用词

对于中英文文本都存在停用词现象。停用词指非常常见的词但却没有实在意义的那一堆词，通常通过构建停用词表进行滤除。英文中比较典型的就是“is”，中文中为“的”这样的词。是否滤除停用词视情况而定，对于文本分类，相似度检验问题建议滤除，否则会发现所有文本相似度好像都很高的样子。

1.3 词向量

词向量是一种比较常用的对词进行编码的一种手段。比较常见的就one-hot 编码，word2vec，glove的方法，最近还出了一种fasttext的方法，也可以尝试用一用。One-hot的方法很容易把维度增大，因为字典有多少个他就有多少维，而后面的方法实际上是可以控制词向量维度的，一般控制在300维以内。词向量的基本可理解为这个词包含了多少语义信息，需要自己训练的话语料库尽量越大越好，如果自己的语料库本身就很小还是直接拿预训练的词向量进行训练吧，一般是有Wiki的预训练数据的。

1.4 主题特征

文本中的一些词可能表示为一个一样事物，这个时候使用主题特征把这些词归纳一下，构成新的特征，可能听的比较多的就是TF-IDF方法，直接根据词频，另外常见的还有LDA方法，需要自己定义有几个主题，而HDP方法则可以自己确定有多少主题。

1.5 词性特征

词性特征也称作POS。词性就是指的我们常说的名词动词形容词。通过常见的py包是可以直接提取出来的。

1.6 命名实体

命名实体也叫NER。一般如Stanfordnlp是直接包含了命名实体识别的检测，但仅限于如货币（美元，英镑），时间（分，秒）这样的常见类型。而很多情况下则需要根据自己的场景来提取命名实体，比如对文本中的生物标注是动物还是植物。需要特殊领域的只有自己训练了。

2.句法分析与语义分析

句法分析主要方法还是依靠调包。实现方法主要是规则+概率。一般句法分析出来以后一个单词会有两个属性，一个是指向他的单词的与他自己的位移，一个是他与这个单词的关系。每个词都有唯一的指向他的词

NLP 中的基础总结