自动化技术论文_基于信息论的TF-IDF算法在文本

日期：2022-02-11 作者：网站采编

文章目录

引言

一、文本分类的一般过程

二、相关基础知识

1．词向量表示

2. Bi LSTM相关知识

三、融合信息论的TF-IDF算法

1.TF-IDF

2．信息论基础

(1）熵

(2）相对熵

3. 基于信息论的TF-IDF

4. Word2vec结合改进后的TF-IDF

四、不同特征选择方法的Bi LSTM分类

1．实验数据

2．参数设置

3．分类性能评价指标

4．不同特征选择方法的Bi LSTM分类结果

五、结论

文章摘要:为了解决传统TF-IDF算法太过依赖词频,未考虑关键词在不同文本的不同分布对其权重影响的问题,提出一种基于信息论的TF-IDF特征选择和文本分类方法。首先,对文本进行分词以及去停用词的处理,然后使用Word2vec的skip-gram模型结合基于信息论的TF-IDF对处理后的文本进行特征选择,以更准确的表征文本,最后使用双向长短时记忆网络（BiLSTM）来进行访问上下文信息,得到文本分类的结果。结果表明,该方法与原始TF-IDF相比,分类的精确率、召回率和F1值都分别有所提升。

文章关键词:

论文分类号:TP391.1;TP18

上一篇：电力工业论文_基于关系探索和KTBoost的暂态稳
下一篇：高等教育论文_面向计算机人才培养的信息论与编