Gensim训练词向量与Embedding相关知识 翔涛2020年5月22日 在进行文本分类的时候,预处理我们可以自己做一个词向量模型,也可以采用预训练的模型。采用预训练的模型比如谷歌基于goole news训练的Word2vec模型,由于在大量文本数据中训练过,所以词的概率分… 机器学习, 计算机NLP
NLP数据准备相关代码记录 翔涛2020年5月21日 csv文件 什么是csv文件 csv既逗号分隔符文件,行数据用’,’分隔,列数据用换行符’\n’分隔 读取与写入csv文件 csv文件存储格式与换行问题… 机器学习, 计算机NLP
Natural Language Processing相关概念理解 翔涛2020年5月21日 NLP一般流程 文本预处理->词向量与文本表示->特征选择与特征抽取->分类算法 词向量与文本表示 词袋模型(BOW) 将所有词汇放进一个袋子里,假设有n个词,则每个句子表示为一个长… 机器学习, 计算机NLP