搜索引擎如何提取正文

独立开发者9年前 (2013-12-16)SEO优化797

还是延续上一篇两个"珠海SEO"所争论的问题,SEO必须了解HTML结构树,此文中介绍了搜索引擎是如何提取网页Title的,那网页的正文又是如何提取的呢?对于网页正文的提取方法就比提取Title复杂得多了。

互联网上的网页形形色色,没有统一规范的结构,要从这些网页中提取出正文是相当不易的。搜索引擎的分析系统就是来做这个工作的。

如何识别正文,了解HTML结构树就为我们分析正文打下了坚实的基础。将网页划分为多个不同的块,像

<p>珠海seo</p>

可以将网页上所有的文本块按以下三种类型来区分:

  1. 主题类的文本块(对应的英文为topic)

  2. 目录类的文本块(对应的英文为hub)

  3. 图片类的文本块(对应的英文为pic)

主题类的文本块如:

<td>珠海SEO之关键词优化</td>

目录类的文本块如:

<a href="">珠海SEO,SEO优化</a>

图片型的文本块如:

<img src="">珠海SEO案例图</img>

通过这些文本块来判断哪个文本块是正文,这里有必要引入搜索引擎的算法——投票算法,或许很多的SEO人员听到这个词语并不感到陌生,但对正文提取的投票算法却不似链接的投票算法,该算法的基本原理是大部分人给的意见往往是正确的。就像中国好声音130多家媒体对选手们的给分方式一样,结果会剔除一上最高分和一个最低分,虽然这种分值方式也是由评委主观产生,但是这种评判的方式还是被大多数人所接受。

投票算法的过程是这样的,搜索引擎会预先定义好给每个文本块打分的规则,得分最高的文本块就是正文。

假定搜索引擎预先定义好下面2条规则:

  1. 如果文本块的文字长度少于10个字,得分为0;在10~15个字之间得分为5分;在50~250个字之间得分为8分;超过250个字,得分为10分;

  2. 如果文本块文本位置在右边,得分为0;在顶部,得分为3分;在左侧,得分为5分;在中间,得分为10分;

当然这里笔者只是举例,搜索引擎实际的算法是相当复杂的。

image

通过这个打分模型,一眼就能看出,文本块1是正文的可能性较高,知道了搜索引擎的投票算法,相信对SEO实战会有一定的指导作用。

相关文章

珠海seo的三个发展级别

seo一度成为互联网行业很火的一词,然而身在珠海的我们似乎离这片硝烟战火还很远。珠海seo行业一直保持着不温不火的局势,年轻的我们,年轻的SEOer们应该时刻保持着积极警惕的头脑,为即将来临的暴风雨做...

SEO问答六:长尾关键词是什么意思,如何挖掘长尾关键词?

SEO问答六:长尾关键词是什么意思,如何挖掘长尾关键词?

什么是长尾关键词网站上非目标关键词但也可以带来搜索流量的关键词,称为长尾关键词。长尾关键词是针对主关键词而言的,简单的说就是一个关键词的扩展。长尾关键词具有的特征长尾关键词的长度如果搜索引擎不限制的话...

各地seoer晒工资单

前两天,在百度看到seo工资各地的标准,这样的工资是与当地的生活水平有关的,如果具体到个人,实在是很难说,笔者对seo行业工资待遇有自己的看法上海seo:5350.00元 广州seo:4750.00元...

SEO问答四:如何交换友情链接,交换友情链接的作用?

SEO问答四:如何交换友情链接,交换友情链接的作用?

什么是友情链接友情链接是指互相在自己的网站上放对方网站的链接,必须要能在网页代码中找到网址和网站名称。一般是指网站之间相互加对方的网站名字和链接地址,友情链接大多是显示在网站页面的下方,用鼠标点击它,...

如何做好移动站

如何做好一个移动站,珠海seoer前天参加了百度站长大课堂,根据百度提供的网站优化方案可以从以下几点入手。把握好三个宗旨,就是百度最喜欢的网站:速度快、死链少、页面主题内容突出速度好,要选择质量好的服...

珠海SEO网站收录正常,排名却下降了

珠海SEO网站收录正常,排名却下降了

前天开始珠海SEO网站排名下降了,收录却正常,看看是什么原因?珠海SEO网站排名聚降,稳稳的第一名现在居然消失了,这两天一直在查找原因,也整理了一些可能引起网站排名下降的原因列表:1、从起点开始,服务...

评论列表

互传电商网
8年前 (2015-07-18)

还不错

动漫资讯
8年前 (2015-04-11)

博主不打算出现了吗

小碧池
9年前 (2014-06-27)

我觉得这个 是随机抓取的

小甜心88
9年前 (2014-03-05)

学习了

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。