特征权重计算——逆文档频率因子

admin5年前 (2016-11-08)SEO优化265

什么是逆文档频率因子,简称IDF,IDF反映了在文档集合中一个单词对一个文档的重要性,经常在文本数据挖据与信息提取中用来作为权重因子。在一份给定的文件里,词频(termfrequency-TF)指的是某一个给定的词语在该文件中出现的频率。逆向文件频率(inversedocument frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。

逆文档频率因子与文档息息相关,SEOer通常说的词频,也就是TF值,指的是单词在文档中的出现次数,TF是对不同的文档而言的。而IDF指的是文档集合的一个全局因子,对于一个文档集合,每个单词的IDF值就是确定的,跟某个文档无关,因此IDF表现的不是文档本身的特征,而是特征单词之间的相对重要性。

逆文档频率因子IDF的计算公式如下图

根据这个计算公式可以看出,文档频率越高,IDF值就小,意思是说越多的文档包含某个单词,那其IDF权值越小,IDF反映出特征词在整个文档集合中的分布情况,特征词出现的次数越多,IDF值越低,那么这个词区分不同文档的能力越差咯,重要性自然也就降低了。IDF值越高,说明特征词区分文档的能力越强,那这个特征词就越有价值。

SEO们,通过逆文档频率因子,你们从中懂得了什么呢?SEOer仔细揣摩下吧,当你布置给你们的作业。

百度的天网算法

搜索引擎如何提取正文

相关文章

搜索引擎的中文分词方法

搜索引擎的中文分词方法

中文的搜索引擎,主要以百度,360,搜狗为首。对于中文分词方法繁多,也比较复杂。搜索引擎在完成网页的查重工作后,在分析系统准备将结果发往索引系统前进行分词工作。相对来说,英文的分词方法会比中文的分词方...

2013年终百度算法调整后,珠海SEO网站上第一位后的感想

2013年终百度算法调整后,珠海SEO网站上第一位后的感想

珠海SEO网站一直在百度的审核期中,前几天,也就是2013年的最后几天,经过百度算法动荡后,珠海SEO网站浮出水面,一举排上百度首页第一位,其实在很早之前,珠海SEO就一直在谷歌搜索中排第一位。这个结...

SEO如何赚钱——致刚步入SEO行业的SEOer们

SEO如何赚钱——致刚步入SEO行业的SEOer们

我的SEO之路,在珠海,十余年的SEO工作经历,从简单的的搜索规则,到如何应对频繁更新的SEO算法,从懵b到熟练运用,这期间的过程,花了多少时间,熬了多少个夜晚,个中辛酸相信做SEO的同行们都能想像。...

如何把程序人生网做到百度权重2——SEO实战

如何把程序人生网做到百度权重2——SEO实战

如何把程序人生网做到百度权重2,做到权重2需要多长时间?这是一篇SEO实战性文章。网上教SEO技术的人多,但真正教SEO实战的很少,每个做SEOer都有自己的一手,很少有人愿意写出来和大家分享。珠海S...

怎样写软文吸引百万流量

怎样写软文吸引百万流量

做SEO的都知道要写好一篇软文是多少重要,但是要真正将一篇软文写是不像一篇软件却是需要很深的造诣的。之前有人在百度贴吧发过这样一篇带预言性的帖子,预言2014年世界杯中国将会夺冠,在此立贴为证。虽然大...

百度site指令不在第一位是K站的预告吗

百度site指令不在第一位是K站的预告吗

在网上有很多站长质疑,百度site指令时,主站不在第一位了,是不是我的爱站要被K了?对于站长的这个问题,珠海SEO也纠结了很久,起初也认为有这个可能,不过在后来查阅了很多相关权威性的资料后,否认了这个...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。