搜索引擎的中文分词方法

admin8年前 (2014-03-15)SEO优化335

中文的搜索引擎,主要以百度,360,搜狗为首。对于中文分词方法繁多,也比较复杂。

搜索引擎在完成网页的查重工作后,在分析系统准备将结果发往索引系统前进行分词工作。相对来说,英文的分词方法会比中文的分词方法简单,因为中国的语言文字博大精深的缘故,中文并没有明显的文字分隔,句子都是连续书写完成。中文分词的意义就是将句子切割成小的词汇单元。

中文分词的难点主要体现在以下三点。

1,交集型歧义

例如,“从小学”这三个字就有多种划分方法

像"从小学科学",正常的理解的是"从小/学/科学" 。

像“从小学懂事”,可以理解为"从/小学/懂事",也可以理解为"从小/学/懂事"。

以图示表示为“

image

2.组合型歧义

例如,“中国”这两个字,单独出来大家都很容易理解,但是在下面这两种情况下将有不同的分词方法

像"美国中国面临严重经济问题”,正确的分词是美国/中国/面临/严重/经济/问题“

像"这次地震中国人损失很大",可以理解为”这次/地震中/国人/损失/很大“,也可理解为”这次/地震/中国人/损失很大”


3.混合型歧义

例如:“人才能”,可切分为“人才/能”、“人/才能”、“人/才/能”。


以上种种的各种歧义型类型给中文分词增加了难度,搜索引擎为了解决这些歧义类型,主要还是借助字典和统计学的方法。《新华字典》及中文词汇量最大的《辞海》,都只是包含了日常生活中常用的词汇。但是社会在发展,特别是如今网络的崛起,涌现出大量的网络词汇,这些都是这些字典所不具备的。而对于搜索引擎来说,必须要能够有效地将这些词汇存储在搜索引擎的字典中。

可以理解为搜索引擎是以中国的《辞海》为基础,然后不断扩充的过程。


相关文章

不可忽视的NoScript标签

不可忽视的NoScript标签

做seo的过程中,除了注意img标签的在alt属性外,还有一个不可忽视的标记——NoScript。搜索引擎在解析javascript时,大部分情况下,很多用户的浏览器还是支持javascr...

珠海seo的三个发展级别

seo一度成为互联网行业很火的一词,然而身在珠海的我们似乎离这片硝烟战火还很远。珠海seo行业一直保持着不温不火的局势,年轻的我们,年轻的SEOer们应该时刻保持着积极警惕的头脑,为即将来临的暴风雨做...

怎样写软文吸引百万流量

怎样写软文吸引百万流量

做SEO的都知道要写好一篇软文是多少重要,但是要真正将一篇软文写是不像一篇软件却是需要很深的造诣的。之前有人在百度贴吧发过这样一篇带预言性的帖子,预言2014年世界杯中国将会夺冠,在此立贴为证。虽然大...

SEO优化之使图片映射

很多SEOer都建议不要用图片做导航,尽量少用图片,原因大致就是图片不利用索引等等。但是当我在网络上看到很多优秀的网站后,发现事实上并非如此,网站因图片而美,网页设计者们避免不了的需要使用图片,只要图...

朋友送我一本书,走进搜索引擎

朋友送我一本书,走进搜索引擎

SEO好友送我一本书——《走进搜索引擎》,该书由清华大学三个博士生所著。书中一针见血的指出了搜索引擎成功的5大需求,快、全、准、稳、省,并且阐述了搜索引擎的4大体系:下载系统、分析系统、索引系统、查询...

百度蓝天算法,严打新闻源售卖目录

百度蓝天算法,严打新闻源售卖目录

什么是百度新闻源,请参考这篇文章https://zhanzhang.baidu.com/act/baidunews百度新闻源是指符合搜索引擎种子新闻站的标准,站内信息第一时间被搜索引擎优先收录,且被网...

评论列表

互传电商网
7年前 (2015-07-18)

不错

民间偏方大全
8年前 (2014-07-29)

外链才是最重要的

无锡SEO
8年前 (2014-06-21)

利用好搜索引擎分词技术可以命中更多长尾

互传站长网
8年前 (2014-05-17)

不知细叶谁裁出,二月春风似剪刀

kindle之家
8年前 (2014-04-01)

明白了分词的用法

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。