自动化技术论文_基于信息论的TF-IDF算法在文本

日期:2022-02-11 作者:网站采编

文章目录

引言

一、文本分类的一般过程

二、相关基础知识

1.词向量表示

2. Bi LSTM相关知识

三、融合信息论的TF-IDF算法

1.TF-IDF

2.信息论基础

    (1)熵

    (2)相对熵

3. 基于信息论的TF-IDF

4. Word2vec结合改进后的TF-IDF

四、不同特征选择方法的Bi LSTM分类

1.实验数据

2.参数设置

3.分类性能评价指标

4.不同特征选择方法的Bi LSTM分类结果

五、结论

文章摘要:为了解决传统TF-IDF算法太过依赖词频,未考虑关键词在不同文本的不同分布对其权重影响的问题,提出一种基于信息论的TF-IDF特征选择和文本分类方法。首先,对文本进行分词以及去停用词的处理,然后使用Word2vec的skip-gram模型结合基于信息论的TF-IDF对处理后的文本进行特征选择,以更准确的表征文本,最后使用双向长短时记忆网络(BiLSTM)来进行访问上下文信息,得到文本分类的结果。结果表明,该方法与原始TF-IDF相比,分类的精确率、召回率和F1值都分别有所提升。

文章关键词:

论文分类号:TP391.1;TP18

期刊导读
期刊介绍
邮箱投稿
在线投稿
联系我们