特征权重计算——逆文档频率因子

独立开发者6年前 (2016-11-08)SEO优化699

什么是逆文档频率因子,简称IDF,IDF反映了在文档集合中一个单词对一个文档的重要性,经常在文本数据挖据与信息提取中用来作为权重因子。在一份给定的文件里,词频(termfrequency-TF)指的是某一个给定的词语在该文件中出现的频率。逆向文件频率(inversedocument frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。

逆文档频率因子与文档息息相关,SEOer通常说的词频,也就是TF值,指的是单词在文档中的出现次数,TF是对不同的文档而言的。而IDF指的是文档集合的一个全局因子,对于一个文档集合,每个单词的IDF值就是确定的,跟某个文档无关,因此IDF表现的不是文档本身的特征,而是特征单词之间的相对重要性。

逆文档频率因子IDF的计算公式如下图

根据这个计算公式可以看出,文档频率越高,IDF值就小,意思是说越多的文档包含某个单词,那其IDF权值越小,IDF反映出特征词在整个文档集合中的分布情况,特征词出现的次数越多,IDF值越低,那么这个词区分不同文档的能力越差咯,重要性自然也就降低了。IDF值越高,说明特征词区分文档的能力越强,那这个特征词就越有价值。

SEO们,通过逆文档频率因子,你们从中懂得了什么呢?SEOer仔细揣摩下吧,当你布置给你们的作业。

百度的天网算法

搜索引擎如何提取正文

相关文章

SEO问答一:死链接是什么?如何处理死链接?

SEO问答一:死链接是什么?如何处理死链接?

死链接分协议死链,内容死链,跳转死链。 协议死链是指通过HTTP协议状态码明确表示网页已无阅读价值。百度站长建议协议死链为404代码,即未找到文件。请尽量不要用其它状...

朋友送我一本书,走进搜索引擎

朋友送我一本书,走进搜索引擎

SEO好友送我一本书——《走进搜索引擎》,该书由清华大学三个博士生所著。书中一针见血的指出了搜索引擎成功的5大需求,快、全、准、稳、省,并且阐述了搜索引擎的4大体系:下载系统、分析系统、索引系统、查询...

百度的天网算法有什么用

百度的天网算法有什么用

今天在百度站长平台看到百度的最新动态,“天网算法”出台,百度严打盗取用户隐私。近日,百度网页搜索发现部分站点存在盗取用户隐私的行为,主要表现为网页嵌恶意代码,用于盗取网民的QQ号、手机号。而许多网民却...

黑帽白帽seo技术的区别

黑帽白帽seo技术的区别

黑帽白帽seo技术的区别是什么,了解SEO的人都应该不会陌生,但真正的白帽SEO技术与黑帽SEO技术的分别,相信做SEO的人不一定真正理解。一句话说明黑帽SEO与白帽SEO技术的不同点,那就是在优化的...

百度蓝天算法,严打新闻源售卖目录

百度蓝天算法,严打新闻源售卖目录

什么是百度新闻源,请参考这篇文章https://zhanzhang.baidu.com/act/baidunews百度新闻源是指符合搜索引擎种子新闻站的标准,站内信息第一时间被搜索引擎优先收录,且被网...

百度冰桶算法又升级啦

百度冰桶算法又升级啦

前天,百度站长平台发布了百度移动搜索冰桶算法升级的公告,冰桶算法2.0将于7月15日正式上线,希望站长们能对自己的网站进行整改,2.0的核心功能是:2.0版本将严厉打击在百度移动搜索中,打断用户完整搜...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。