特征权重计算——逆文档频率因子

admin7年前 (2016-11-08)SEO优化436

什么是逆文档频率因子,简称IDF,IDF反映了在文档集合中一个单词对一个文档的重要性,经常在文本数据挖据与信息提取中用来作为权重因子。在一份给定的文件里,词频(termfrequency-TF)指的是某一个给定的词语在该文件中出现的频率。逆向文件频率(inversedocument frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。

逆文档频率因子与文档息息相关,SEOer通常说的词频,也就是TF值,指的是单词在文档中的出现次数,TF是对不同的文档而言的。而IDF指的是文档集合的一个全局因子,对于一个文档集合,每个单词的IDF值就是确定的,跟某个文档无关,因此IDF表现的不是文档本身的特征,而是特征单词之间的相对重要性。

逆文档频率因子IDF的计算公式如下图

根据这个计算公式可以看出,文档频率越高,IDF值就小,意思是说越多的文档包含某个单词,那其IDF权值越小,IDF反映出特征词在整个文档集合中的分布情况,特征词出现的次数越多,IDF值越低,那么这个词区分不同文档的能力越差咯,重要性自然也就降低了。IDF值越高,说明特征词区分文档的能力越强,那这个特征词就越有价值。

SEO们,通过逆文档频率因子,你们从中懂得了什么呢?SEOer仔细揣摩下吧,当你布置给你们的作业。

百度的天网算法

搜索引擎如何提取正文

相关文章

再一次折腾珠海SEO网

再一次折腾珠海SEO网

再一次折腾珠海SEO网,很明显,我已经折腾几次了,珠海SEO也是几起几落。上篇介绍了SEO赚钱之道,这个是每个SEO人最终的方向,自我价值的体现。也正是因为此文,我作出了再一次折腾珠海SEO网站的决定...

黑帽白帽seo技术的区别

黑帽白帽seo技术的区别

黑帽白帽seo技术的区别是什么,了解SEO的人都应该不会陌生,但真正的白帽SEO技术与黑帽SEO技术的分别,相信做SEO的人不一定真正理解。一句话说明黑帽SEO与白帽SEO技术的不同点,那就是在优化的...

2013年终百度算法调整后,珠海SEO网站上第一位后的感想

2013年终百度算法调整后,珠海SEO网站上第一位后的感想

珠海SEO网站一直在百度的审核期中,前几天,也就是2013年的最后几天,经过百度算法动荡后,珠海SEO网站浮出水面,一举排上百度首页第一位,其实在很早之前,珠海SEO就一直在谷歌搜索中排第一位。这个结...

百度MIP效果演示及站点改造资料

百度MIP效果演示及站点改造资料

8月21号,第一时间给大家介绍了百度的MIP计划,相信SEO人员对MIP计划都有所了解了,短时间内应该还没来得及动手改造网站。继续关注百度的MIP,手机搜索“百度MIP" ,可以看到搜索结果...

如何正确设计404页面

如何正确设计404页面

网站做的越大,势必就会有一些网站链接无法到达,这就需要为网站设计好404页面。很多网站虽然有做404页面,但其设计的并不合理,对搜索引擎不够友好,达不到良好的SEO目标。先看一个无效的404页面设计,...

移动搜索优先索引原则

移动搜索优先索引原则

上一章总结了搜索引擎的未来发展方向,移动搜索排在第3位。随着人们生活水平的提高,基本能人手一部手机,大到90多的老爷爷,小到8,9岁的小孩,而电脑则不同,门槛稍高,随着手机的普及,移动渠道变得至关重要...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。