特征权重计算——逆文档频率因子

admin5年前 (2016-11-08)SEO优化412

什么是逆文档频率因子,简称IDF,IDF反映了在文档集合中一个单词对一个文档的重要性,经常在文本数据挖据与信息提取中用来作为权重因子。在一份给定的文件里,词频(termfrequency-TF)指的是某一个给定的词语在该文件中出现的频率。逆向文件频率(inversedocument frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。

逆文档频率因子与文档息息相关,SEOer通常说的词频,也就是TF值,指的是单词在文档中的出现次数,TF是对不同的文档而言的。而IDF指的是文档集合的一个全局因子,对于一个文档集合,每个单词的IDF值就是确定的,跟某个文档无关,因此IDF表现的不是文档本身的特征,而是特征单词之间的相对重要性。

逆文档频率因子IDF的计算公式如下图

根据这个计算公式可以看出,文档频率越高,IDF值就小,意思是说越多的文档包含某个单词,那其IDF权值越小,IDF反映出特征词在整个文档集合中的分布情况,特征词出现的次数越多,IDF值越低,那么这个词区分不同文档的能力越差咯,重要性自然也就降低了。IDF值越高,说明特征词区分文档的能力越强,那这个特征词就越有价值。

SEO们,通过逆文档频率因子,你们从中懂得了什么呢?SEOer仔细揣摩下吧,当你布置给你们的作业。

百度的天网算法

搜索引擎如何提取正文

相关文章

黑帽白帽seo技术的区别

黑帽白帽seo技术的区别

黑帽白帽seo技术的区别是什么,了解SEO的人都应该不会陌生,但真正的白帽SEO技术与黑帽SEO技术的分别,相信做SEO的人不一定真正理解。一句话说明黑帽SEO与白帽SEO技术的不同点,那就是在优化的...

百度冰桶算法4.0打击移动广告

百度冰桶算法4.0打击移动广告

为了建立良好的移动生态环境,百度推出了冰桶算法,历史版本2.0和3.0的主是要打击在百度移动搜索中,打断用户完整搜索路径的调起行为,而最新的冰桶算法版本已到4.0,主要针对移动搜索结果页广告过多、影响...

珠海SEO网站收录正常,排名却下降了

珠海SEO网站收录正常,排名却下降了

前天开始珠海SEO网站排名下降了,收录却正常,看看是什么原因?珠海SEO网站排名聚降,稳稳的第一名现在居然消失了,这两天一直在查找原因,也整理了一些可能引起网站排名下降的原因列表:1、从起点开始,服务...

珠海seo谈如何做好seo服务

珠海seo谈如何做好seo服务

在珠海这个弹丸之地,专业做SEO服务的人员不多,根据笔者本人多年在珠海从事SEO的工作经验,整理出了这篇如何做好SEO服务的拙文。seo服务,实际是指围绕某个特定的主题,通过对搜索引擎友好的方式而展开...

如何做好标题党——SEO编辑第一步

如何做好标题党——SEO编辑第一步

标题,是网页SEO中最重要的元素title。标题党是一个贬义词,基本释文是文章的标题非常吸引人,一看有就想点击,但是点进去后文章内容所表达的意思与文章标题完全不相符,有些SEOer甚至通过制作耸人听闻...

正确使用JavaScript防止被搜索引擎惩罚

正确使用JavaScript防止被搜索引擎惩罚

在使用javascript进行网页样式的控制时,会出现两个缺点,一是对用户有要求,有可以用户的浏览器禁用或者不支持javascript,导致想给用户展现的内容不能体现出来;二是可以会引起搜索引擎的误判...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。