搜索引擎的中文分词方法

admin11年前 (2014-03-15)SEO优化415

中文的搜索引擎,主要以百度,360,搜狗为首。对于中文分词方法繁多,也比较复杂。

搜索引擎在完成网页的查重工作后,在分析系统准备将结果发往索引系统前进行分词工作。相对来说,英文的分词方法会比中文的分词方法简单,因为中国的语言文字博大精深的缘故,中文并没有明显的文字分隔,句子都是连续书写完成。中文分词的意义就是将句子切割成小的词汇单元。

中文分词的难点主要体现在以下三点。

1,交集型歧义

例如,“从小学”这三个字就有多种划分方法

像"从小学科学",正常的理解的是"从小/学/科学" 。

像“从小学懂事”,可以理解为"从/小学/懂事",也可以理解为"从小/学/懂事"。

以图示表示为“

image

2.组合型歧义

例如,“中国”这两个字,单独出来大家都很容易理解,但是在下面这两种情况下将有不同的分词方法

像"美国中国面临严重经济问题”,正确的分词是美国/中国/面临/严重/经济/问题“

像"这次地震中国人损失很大",可以理解为”这次/地震中/国人/损失/很大“,也可理解为”这次/地震/中国人/损失很大”


3.混合型歧义

例如:“人才能”,可切分为“人才/能”、“人/才能”、“人/才/能”。


以上种种的各种歧义型类型给中文分词增加了难度,搜索引擎为了解决这些歧义类型,主要还是借助字典和统计学的方法。《新华字典》及中文词汇量最大的《辞海》,都只是包含了日常生活中常用的词汇。但是社会在发展,特别是如今网络的崛起,涌现出大量的网络词汇,这些都是这些字典所不具备的。而对于搜索引擎来说,必须要能够有效地将这些词汇存储在搜索引擎的字典中。

可以理解为搜索引擎是以中国的《辞海》为基础,然后不断扩充的过程。


相关文章

SEO问答二:百度指数,什么是百度指数?

SEO问答二:百度指数,什么是百度指数?

百度指数百度指数是用以反映关键词在过去30天内的网络曝光率及用户关注度!它能形象地反映该关键词的每天的变化趋势!百度指数是以百度网页搜索和百度新闻搜索为基础的免费海量数据分析服务,用以反映不同关键词在...

SEO问答一:死链接是什么?如何处理死链接?

SEO问答一:死链接是什么?如何处理死链接?

死链接分协议死链,内容死链,跳转死链。 协议死链是指通过HTTP协议状态码明确表示网页已无阅读价值。百度站长建议协议死链为404代码,即未找到文件。请尽量不要用其它状...

seo网址收录策略

seo网址收录策略

一个网站,通常为说,首页和分类页面收录是没有问题的,当然被K站或惩罚的除外。在网站建立初期,Seoer要考虑的是如何引导蜘蛛去爬行,如何让Google,百度收录网站?SEOer都知道网站的内部链接结构...

最全的seo作弊手法

最全的seo作弊手法

作为专业的SEO人员,我一直反对黑帽SEO,反对SEO作弊行为,始终提倡白帽SEO,因为急功近利采取一些极端的手段,是不可取是要付出巨大代价的,有太多的网站就因为采用了SEO作弊手段,最终导致K站。S...

干货:6大seo优化方法助你提升关键词排名

干货:6大seo优化方法助你提升关键词排名

只要是做seo的,或者是自己有过网站运营经验的,都对关键词排名提升的技术很感兴趣,或许每天做的工作就是围绕着关键词排名这点。珠海SEO告诉你,提升关键词排名,请掌握以下6点,持之以恒,你定会有收获。优...

不可忽视的NoScript标签

不可忽视的NoScript标签

做seo的过程中,除了注意img标签的在alt属性外,还有一个不可忽视的标记——NoScript。搜索引擎在解析javascript时,大部分情况下,很多用户的浏览器还是支持javascr...

评论列表

互传电商网
9年前 (2015-07-18)

不错

民间偏方大全
10年前 (2014-07-29)

外链才是最重要的

无锡SEO
10年前 (2014-06-21)

利用好搜索引擎分词技术可以命中更多长尾

互传站长网
10年前 (2014-05-17)

不知细叶谁裁出,二月春风似剪刀

kindle之家
10年前 (2014-04-01)

明白了分词的用法

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。