搜索引擎如何提取正文
还是延续上一篇两个"珠海SEO"所争论的问题,SEO必须了解HTML结构树,此文中介绍了搜索引擎是如何提取网页Title的,那网页的正文又是如何提取的呢?对于网页正文的提取方法就比提取Title复杂得多了。
互联网上的网页形形色色,没有统一规范的结构,要从这些网页中提取出正文是相当不易的。搜索引擎的分析系统就是来做这个工作的。
如何识别正文,了解HTML结构树就为我们分析正文打下了坚实的基础。将网页划分为多个不同的块,像
<p>珠海seo</p>
可以将网页上所有的文本块按以下三种类型来区分:
主题类的文本块(对应的英文为topic)
目录类的文本块(对应的英文为hub)
图片类的文本块(对应的英文为pic)
主题类的文本块如:
<td>珠海SEO之关键词优化</td>
目录类的文本块如:
<a href="">珠海SEO,SEO优化</a>
图片型的文本块如:
<img src="">珠海SEO案例图</img>
通过这些文本块来判断哪个文本块是正文,这里有必要引入搜索引擎的算法——投票算法,或许很多的SEO人员听到这个词语并不感到陌生,但对正文提取的投票算法却不似链接的投票算法,该算法的基本原理是大部分人给的意见往往是正确的。就像中国好声音130多家媒体对选手们的给分方式一样,结果会剔除一上最高分和一个最低分,虽然这种分值方式也是由评委主观产生,但是这种评判的方式还是被大多数人所接受。
投票算法的过程是这样的,搜索引擎会预先定义好给每个文本块打分的规则,得分最高的文本块就是正文。
假定搜索引擎预先定义好下面2条规则:
如果文本块的文字长度少于10个字,得分为0;在10~15个字之间得分为5分;在50~250个字之间得分为8分;超过250个字,得分为10分;
如果文本块文本位置在右边,得分为0;在顶部,得分为3分;在左侧,得分为5分;在中间,得分为10分;
当然这里笔者只是举例,搜索引擎实际的算法是相当复杂的。
通过这个打分模型,一眼就能看出,文本块1是正文的可能性较高,知道了搜索引擎的投票算法,相信对SEO实战会有一定的指导作用。