特征权重计算——逆文档频率因子

admin8年前 (2016-11-08)SEO优化489

什么是逆文档频率因子,简称IDF,IDF反映了在文档集合中一个单词对一个文档的重要性,经常在文本数据挖据与信息提取中用来作为权重因子。在一份给定的文件里,词频(termfrequency-TF)指的是某一个给定的词语在该文件中出现的频率。逆向文件频率(inversedocument frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。

逆文档频率因子与文档息息相关,SEOer通常说的词频,也就是TF值,指的是单词在文档中的出现次数,TF是对不同的文档而言的。而IDF指的是文档集合的一个全局因子,对于一个文档集合,每个单词的IDF值就是确定的,跟某个文档无关,因此IDF表现的不是文档本身的特征,而是特征单词之间的相对重要性。

逆文档频率因子IDF的计算公式如下图

根据这个计算公式可以看出,文档频率越高,IDF值就小,意思是说越多的文档包含某个单词,那其IDF权值越小,IDF反映出特征词在整个文档集合中的分布情况,特征词出现的次数越多,IDF值越低,那么这个词区分不同文档的能力越差咯,重要性自然也就降低了。IDF值越高,说明特征词区分文档的能力越强,那这个特征词就越有价值。

SEO们,通过逆文档频率因子,你们从中懂得了什么呢?SEOer仔细揣摩下吧,当你布置给你们的作业。

百度的天网算法

搜索引擎如何提取正文

相关文章

2016要过去了,珠海SEO为你整理百度SEO算法规则

2016要过去了,珠海SEO为你整理百度SEO算法规则

国内基本上都是在做百度优化,近期百度调整很快,很多新人站长表示头痛。越来越多的站长已经离开了这个舞台。2016年,百度优化又有哪些调整呢?盘点最新优化方式,让您如鱼得水。百度进一步提高了自身产物的排名...

百度与谷歌对新站SEO的不同策略

百度与谷歌对新站SEO的不同策略

百度和谷歌对等待新站都有自己的标准,谷歌有沙盒原理,百度有审核期,不过从总体的方向来看,其根本都是差不多,都是为了挑选优秀的网站,且都为3-6个月的时间。两者的区别是,过了审核期后,谷歌更注重网站本身...

百度蓝天算法,严打新闻源售卖目录

百度蓝天算法,严打新闻源售卖目录

什么是百度新闻源,请参考这篇文章https://zhanzhang.baidu.com/act/baidunews百度新闻源是指符合搜索引擎种子新闻站的标准,站内信息第一时间被搜索引擎优先收录,且被网...

本站robots.txt文件的书写实操

搜索引擎来到网站时,会先查看网站的目录下是否存在robots.txt文件,如果存在,搜索引擎就会抓取robots.txt文件的内容,根据指令做出相应的爬行动作,查看百度的robots文件http://...

如何把程序人生网做到百度权重2——SEO实战

如何把程序人生网做到百度权重2——SEO实战

如何把程序人生网做到百度权重2,做到权重2需要多长时间?这是一篇SEO实战性文章。网上教SEO技术的人多,但真正教SEO实战的很少,每个做SEOer都有自己的一手,很少有人愿意写出来和大家分享。珠海S...

如何正确设计404页面

如何正确设计404页面

网站做的越大,势必就会有一些网站链接无法到达,这就需要为网站设计好404页面。很多网站虽然有做404页面,但其设计的并不合理,对搜索引擎不够友好,达不到良好的SEO目标。先看一个无效的404页面设计,...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。