文章目录
引言
一、文本分类的一般过程
二、相关基础知识
1.词向量表示
2. Bi LSTM相关知识
三、融合信息论的TF-IDF算法
1.TF-IDF
2.信息论基础
(1)熵
(2)相对熵
3. 基于信息论的TF-IDF
4. Word2vec结合改进后的TF-IDF
四、不同特征选择方法的Bi LSTM分类
1.实验数据
2.参数设置
3.分类性能评价指标
4.不同特征选择方法的Bi LSTM分类结果
五、结论
文章摘要:为了解决传统TF-IDF算法太过依赖词频,未考虑关键词在不同文本的不同分布对其权重影响的问题,提出一种基于信息论的TF-IDF特征选择和文本分类方法。首先,对文本进行分词以及去停用词的处理,然后使用Word2vec的skip-gram模型结合基于信息论的TF-IDF对处理后的文本进行特征选择,以更准确的表征文本,最后使用双向长短时记忆网络(BiLSTM)来进行访问上下文信息,得到文本分类的结果。结果表明,该方法与原始TF-IDF相比,分类的精确率、召回率和F1值都分别有所提升。
文章关键词:
论文分类号:TP391.1;TP18
