搜索引擎的中文分词方法

admin10年前 (2014-03-15)SEO优化374

中文的搜索引擎,主要以百度,360,搜狗为首。对于中文分词方法繁多,也比较复杂。

搜索引擎在完成网页的查重工作后,在分析系统准备将结果发往索引系统前进行分词工作。相对来说,英文的分词方法会比中文的分词方法简单,因为中国的语言文字博大精深的缘故,中文并没有明显的文字分隔,句子都是连续书写完成。中文分词的意义就是将句子切割成小的词汇单元。

中文分词的难点主要体现在以下三点。

1,交集型歧义

例如,“从小学”这三个字就有多种划分方法

像"从小学科学",正常的理解的是"从小/学/科学" 。

像“从小学懂事”,可以理解为"从/小学/懂事",也可以理解为"从小/学/懂事"。

以图示表示为“

image

2.组合型歧义

例如,“中国”这两个字,单独出来大家都很容易理解,但是在下面这两种情况下将有不同的分词方法

像"美国中国面临严重经济问题”,正确的分词是美国/中国/面临/严重/经济/问题“

像"这次地震中国人损失很大",可以理解为”这次/地震中/国人/损失/很大“,也可理解为”这次/地震/中国人/损失很大”


3.混合型歧义

例如:“人才能”,可切分为“人才/能”、“人/才能”、“人/才/能”。


以上种种的各种歧义型类型给中文分词增加了难度,搜索引擎为了解决这些歧义类型,主要还是借助字典和统计学的方法。《新华字典》及中文词汇量最大的《辞海》,都只是包含了日常生活中常用的词汇。但是社会在发展,特别是如今网络的崛起,涌现出大量的网络词汇,这些都是这些字典所不具备的。而对于搜索引擎来说,必须要能够有效地将这些词汇存储在搜索引擎的字典中。

可以理解为搜索引擎是以中国的《辞海》为基础,然后不断扩充的过程。


相关文章

特征权重计算——逆文档频率因子

特征权重计算——逆文档频率因子

什么是逆文档频率因子,简称IDF,IDF反映了在文档集合中一个单词对一个文档的重要性,经常在文本数据挖据与信息提取中用来作为权重因子。在一份给定的文件里,词频(termfrequency-TF)指的是...

珠海SEO网站收录正常,排名却下降了

珠海SEO网站收录正常,排名却下降了

前天开始珠海SEO网站排名下降了,收录却正常,看看是什么原因?珠海SEO网站排名聚降,稳稳的第一名现在居然消失了,这两天一直在查找原因,也整理了一些可能引起网站排名下降的原因列表:1、从起点开始,服务...

正确使用JavaScript防止被搜索引擎惩罚

正确使用JavaScript防止被搜索引擎惩罚

在使用javascript进行网页样式的控制时,会出现两个缺点,一是对用户有要求,有可以用户的浏览器禁用或者不支持javascript,导致想给用户展现的内容不能体现出来;二是可以会引起搜索引擎的误判...

SEO问答二:百度指数,什么是百度指数?

SEO问答二:百度指数,什么是百度指数?

百度指数百度指数是用以反映关键词在过去30天内的网络曝光率及用户关注度!它能形象地反映该关键词的每天的变化趋势!百度指数是以百度网页搜索和百度新闻搜索为基础的免费海量数据分析服务,用以反映不同关键词在...

2016要过去了,珠海SEO为你整理百度SEO算法规则

2016要过去了,珠海SEO为你整理百度SEO算法规则

国内基本上都是在做百度优化,近期百度调整很快,很多新人站长表示头痛。越来越多的站长已经离开了这个舞台。2016年,百度优化又有哪些调整呢?盘点最新优化方式,让您如鱼得水。百度进一步提高了自身产物的排名...

怎样写软文吸引百万流量

怎样写软文吸引百万流量

做SEO的都知道要写好一篇软文是多少重要,但是要真正将一篇软文写是不像一篇软件却是需要很深的造诣的。之前有人在百度贴吧发过这样一篇带预言性的帖子,预言2014年世界杯中国将会夺冠,在此立贴为证。虽然大...

评论列表

互传电商网
9年前 (2015-07-18)

不错

民间偏方大全
10年前 (2014-07-29)

外链才是最重要的

无锡SEO
10年前 (2014-06-21)

利用好搜索引擎分词技术可以命中更多长尾

互传站长网
10年前 (2014-05-17)

不知细叶谁裁出,二月春风似剪刀

kindle之家
10年前 (2014-04-01)

明白了分词的用法

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。