搜索引擎的中文分词方法

独立开发者9年前 (2014-03-15)SEO优化586

中文的搜索引擎,主要以百度,360,搜狗为首。对于中文分词方法繁多,也比较复杂。

搜索引擎在完成网页的查重工作后,在分析系统准备将结果发往索引系统前进行分词工作。相对来说,英文的分词方法会比中文的分词方法简单,因为中国的语言文字博大精深的缘故,中文并没有明显的文字分隔,句子都是连续书写完成。中文分词的意义就是将句子切割成小的词汇单元。

中文分词的难点主要体现在以下三点。

1,交集型歧义

例如,“从小学”这三个字就有多种划分方法

像"从小学科学",正常的理解的是"从小/学/科学" 。

像“从小学懂事”,可以理解为"从/小学/懂事",也可以理解为"从小/学/懂事"。

以图示表示为“

image

2.组合型歧义

例如,“中国”这两个字,单独出来大家都很容易理解,但是在下面这两种情况下将有不同的分词方法

像"美国中国面临严重经济问题”,正确的分词是美国/中国/面临/严重/经济/问题“

像"这次地震中国人损失很大",可以理解为”这次/地震中/国人/损失/很大“,也可理解为”这次/地震/中国人/损失很大”


3.混合型歧义

例如:“人才能”,可切分为“人才/能”、“人/才能”、“人/才/能”。


以上种种的各种歧义型类型给中文分词增加了难度,搜索引擎为了解决这些歧义类型,主要还是借助字典和统计学的方法。《新华字典》及中文词汇量最大的《辞海》,都只是包含了日常生活中常用的词汇。但是社会在发展,特别是如今网络的崛起,涌现出大量的网络词汇,这些都是这些字典所不具备的。而对于搜索引擎来说,必须要能够有效地将这些词汇存储在搜索引擎的字典中。

可以理解为搜索引擎是以中国的《辞海》为基础,然后不断扩充的过程。


相关文章

2016要过去了,珠海SEO为你整理百度SEO算法规则

2016要过去了,珠海SEO为你整理百度SEO算法规则

国内基本上都是在做百度优化,近期百度调整很快,很多新人站长表示头痛。越来越多的站长已经离开了这个舞台。2016年,百度优化又有哪些调整呢?盘点最新优化方式,让您如鱼得水。百度进一步提高了自身产物的排名...

本站robots.txt文件的书写实操

搜索引擎来到网站时,会先查看网站的目录下是否存在robots.txt文件,如果存在,搜索引擎就会抓取robots.txt文件的内容,根据指令做出相应的爬行动作,查看百度的robots文件http://...

SEO必须了解HTML结构树

SEO必须了解HTML结构树

作为一个SEOer,必须要知道哪些基本的知识,今天看到2个珠海网友在争论这个问题,有一人说最少要知道HTML相关的标签,而另一个却说不需要知道这些东西,只要会发外链,懂个a标签就行了,据说此人已有2年...

SEO问答六:长尾关键词是什么意思,如何挖掘长尾关键词?

SEO问答六:长尾关键词是什么意思,如何挖掘长尾关键词?

什么是长尾关键词网站上非目标关键词但也可以带来搜索流量的关键词,称为长尾关键词。长尾关键词是针对主关键词而言的,简单的说就是一个关键词的扩展。长尾关键词具有的特征长尾关键词的长度如果搜索引擎不限制的话...

干货:6大seo优化方法助你提升关键词排名

干货:6大seo优化方法助你提升关键词排名

只要是做seo的,或者是自己有过网站运营经验的,都对关键词排名提升的技术很感兴趣,或许每天做的工作就是围绕着关键词排名这点。珠海SEO告诉你,提升关键词排名,请掌握以下6点,持之以恒,你定会有收获。优...

如何把程序人生网做到百度权重2——SEO实战

如何把程序人生网做到百度权重2——SEO实战

如何把程序人生网做到百度权重2,做到权重2需要多长时间?这是一篇SEO实战性文章。网上教SEO技术的人多,但真正教SEO实战的很少,每个做SEOer都有自己的一手,很少有人愿意写出来和大家分享。珠海S...

评论列表

互传电商网
8年前 (2015-07-18)

不错

民间偏方大全
9年前 (2014-07-29)

外链才是最重要的

无锡SEO
9年前 (2014-06-21)

利用好搜索引擎分词技术可以命中更多长尾

互传站长网
9年前 (2014-05-17)

不知细叶谁裁出,二月春风似剪刀

kindle之家
9年前 (2014-04-01)

明白了分词的用法

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。