特征权重计算——逆文档频率因子

admin5年前 (2016-11-08)SEO优化340

什么是逆文档频率因子,简称IDF,IDF反映了在文档集合中一个单词对一个文档的重要性,经常在文本数据挖据与信息提取中用来作为权重因子。在一份给定的文件里,词频(termfrequency-TF)指的是某一个给定的词语在该文件中出现的频率。逆向文件频率(inversedocument frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。

逆文档频率因子与文档息息相关,SEOer通常说的词频,也就是TF值,指的是单词在文档中的出现次数,TF是对不同的文档而言的。而IDF指的是文档集合的一个全局因子,对于一个文档集合,每个单词的IDF值就是确定的,跟某个文档无关,因此IDF表现的不是文档本身的特征,而是特征单词之间的相对重要性。

逆文档频率因子IDF的计算公式如下图

根据这个计算公式可以看出,文档频率越高,IDF值就小,意思是说越多的文档包含某个单词,那其IDF权值越小,IDF反映出特征词在整个文档集合中的分布情况,特征词出现的次数越多,IDF值越低,那么这个词区分不同文档的能力越差咯,重要性自然也就降低了。IDF值越高,说明特征词区分文档的能力越强,那这个特征词就越有价值。

SEO们,通过逆文档频率因子,你们从中懂得了什么呢?SEOer仔细揣摩下吧,当你布置给你们的作业。

百度的天网算法

搜索引擎如何提取正文

相关文章

301重定向不适用于新站

301重定向不适用于新站

笔者下这个结论,是经过实践的,以珠海SEO网站为例,网站上线初启用的是带www的域名,并且有部分收录。后来笔者发现在做外链建设的过程中,加www的域名显得比较长,给用户的感觉很臃肿,所心决定改用不带w...

zblog分类页和文章页导航优化

zblog分类页和文章页导航优化

珠海SEO技术博客立足于珠海,服务于全国各地,笔者使用的这套博客程序zblog也在逐步修改完善中,一直想调整Zblog分类页和文章页导航,这里就把笔者自己调整Zblog程序的过程分享给大家。栏目导航的...

搜索引擎未来发展趋势

搜索引擎未来发展趋势

搜索引擎走过的路,还有即将要走的路第一代:分类目录时代第二代:文本检索时代第三代:整合分析时代第四代:用户中心时代第五代:生活生态圈搜索时代搜索引擎正处在第四代进程,互联网在经历了web2.0的洗礼后...

网站优化过度的处理

网站优化过度的处理

这几天发现博客有被惩罚的迹象,似乎是优化过度,冷静下来想了一下可能引起的原因。因为我平时比较忙,并不能每天都去照看网站,所以网站更新频率比较低,要查找优化过度的原因也较容易。相信自己是找到了症结所在,...

本站robots.txt文件的书写实操

搜索引擎来到网站时,会先查看网站的目录下是否存在robots.txt文件,如果存在,搜索引擎就会抓取robots.txt文件的内容,根据指令做出相应的爬行动作,查看百度的robots文件http://...

SEO必须了解HTML结构树

SEO必须了解HTML结构树

作为一个SEOer,必须要知道哪些基本的知识,今天看到2个珠海网友在争论这个问题,有一人说最少要知道HTML相关的标签,而另一个却说不需要知道这些东西,只要会发外链,懂个a标签就行了,据说此人已有2年...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。