搜索引擎如何提取正文

admin11年前 (2013-12-16)SEO优化550

还是延续上一篇两个"珠海SEO"所争论的问题,SEO必须了解HTML结构树,此文中介绍了搜索引擎是如何提取网页Title的,那网页的正文又是如何提取的呢?对于网页正文的提取方法就比提取Title复杂得多了。

互联网上的网页形形色色,没有统一规范的结构,要从这些网页中提取出正文是相当不易的。搜索引擎的分析系统就是来做这个工作的。

如何识别正文,了解HTML结构树就为我们分析正文打下了坚实的基础。将网页划分为多个不同的块,像

<p>珠海seo</p>

可以将网页上所有的文本块按以下三种类型来区分:

  1. 主题类的文本块(对应的英文为topic)

  2. 目录类的文本块(对应的英文为hub)

  3. 图片类的文本块(对应的英文为pic)

主题类的文本块如:

<td>珠海SEO之关键词优化</td>

目录类的文本块如:

<a href="">珠海SEO,SEO优化</a>

图片型的文本块如:

<img src="">珠海SEO案例图</img>

通过这些文本块来判断哪个文本块是正文,这里有必要引入搜索引擎的算法——投票算法,或许很多的SEO人员听到这个词语并不感到陌生,但对正文提取的投票算法却不似链接的投票算法,该算法的基本原理是大部分人给的意见往往是正确的。就像中国好声音130多家媒体对选手们的给分方式一样,结果会剔除一上最高分和一个最低分,虽然这种分值方式也是由评委主观产生,但是这种评判的方式还是被大多数人所接受。

投票算法的过程是这样的,搜索引擎会预先定义好给每个文本块打分的规则,得分最高的文本块就是正文。

假定搜索引擎预先定义好下面2条规则:

  1. 如果文本块的文字长度少于10个字,得分为0;在10~15个字之间得分为5分;在50~250个字之间得分为8分;超过250个字,得分为10分;

  2. 如果文本块文本位置在右边,得分为0;在顶部,得分为3分;在左侧,得分为5分;在中间,得分为10分;

当然这里笔者只是举例,搜索引擎实际的算法是相当复杂的。

image

通过这个打分模型,一眼就能看出,文本块1是正文的可能性较高,知道了搜索引擎的投票算法,相信对SEO实战会有一定的指导作用。

相关文章

个人博客如何做seo优化

个人博客如何做seo优化

早期人们一般喜欢借助于公共博客作产品推广,SEM营销。不过目前由于建站越来越简单,成本越来越低,很多人都逐渐放弃了公共博客的优化,而采取独立建站的方式来培养自己的个性博客。那么放弃了公共博客的高权重,...

SEO问答七:网站权重是什么,如何提高网站权重?

SEO问答七:网站权重是什么,如何提高网站权重?

网站权重是什么 网站权重,简单的说就是搜索引擎给网站的一个评分,分值越高,权重越高。权重高就表示搜索引擎越重视你的网站,那么网站在搜索引擎中的排名就越好,搜索引擎给予的流量也就越多。明白了网...

2013年终百度算法调整后,珠海SEO网站上第一位后的感想

2013年终百度算法调整后,珠海SEO网站上第一位后的感想

珠海SEO网站一直在百度的审核期中,前几天,也就是2013年的最后几天,经过百度算法动荡后,珠海SEO网站浮出水面,一举排上百度首页第一位,其实在很早之前,珠海SEO就一直在谷歌搜索中排第一位。这个结...

百度与谷歌对新站SEO的不同策略

百度与谷歌对新站SEO的不同策略

百度和谷歌对等待新站都有自己的标准,谷歌有沙盒原理,百度有审核期,不过从总体的方向来看,其根本都是差不多,都是为了挑选优秀的网站,且都为3-6个月的时间。两者的区别是,过了审核期后,谷歌更注重网站本身...

网站优化过度的处理

网站优化过度的处理

这几天发现博客有被惩罚的迹象,似乎是优化过度,冷静下来想了一下可能引起的原因。因为我平时比较忙,并不能每天都去照看网站,所以网站更新频率比较低,要查找优化过度的原因也较容易。相信自己是找到了症结所在,...

黑帽白帽seo技术的区别

黑帽白帽seo技术的区别

黑帽白帽seo技术的区别是什么,了解SEO的人都应该不会陌生,但真正的白帽SEO技术与黑帽SEO技术的分别,相信做SEO的人不一定真正理解。一句话说明黑帽SEO与白帽SEO技术的不同点,那就是在优化的...

评论列表

互传电商网
9年前 (2015-07-18)

还不错

动漫资讯
9年前 (2015-04-11)

博主不打算出现了吗

小碧池
10年前 (2014-06-27)

我觉得这个 是随机抓取的

小甜心88
10年前 (2014-03-05)

学习了

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。