这里会显示出您选择的修订版和当前版本之间的差别。
两侧同时换到之前的修订记录 前一修订版 后一修订版 | 前一修订版 | ||
tf-idf提取关键词 [2020/02/01 21:41] 127.0.0.1 外部编辑 |
tf-idf提取关键词 [2021/06/03 09:13] (当前版本) admin |
||
---|---|---|---|
行 1: | 行 1: | ||
- | ====== 1.计算词频TF ====== | + | ====== 关键词TF-IDF计算方法 ====== |
+ | |||
+ | ===== 1.计算词频TF ===== | ||
TF=词语在文章中出现的次数/文章总词数 | TF=词语在文章中出现的次数/文章总词数 | ||
- | ====== 2.计算IDF ====== | + | ===== 2.计算IDF ===== |
IDF=log(语料库文档总数/(包含该词的文档数+1)) | IDF=log(语料库文档总数/(包含该词的文档数+1)) | ||
词出现在越多的文档中,分母越大,IDF越接近0 | 词出现在越多的文档中,分母越大,IDF越接近0 | ||
- | ====== 3.计算TF-IDF ====== | + | ===== 3.计算TF-IDF ===== |
TF-IDF=TF*IDF | TF-IDF=TF*IDF |