搜索引擎的中文分词方法
中文的搜索引擎,主要以百度,360,搜狗为首。对于中文分词方法繁多,也比较复杂。
搜索引擎在完成网页的查重工作后,在分析系统准备将结果发往索引系统前进行分词工作。相对来说,英文的分词方法会比中文的分词方法简单,因为中国的语言文字博大精深的缘故,中文并没有明显的文字分隔,句子都是连续书写完成。中文分词的意义就是将句子切割成小的词汇单元。
中文分词的难点主要体现在以下三点。
1,交集型歧义
例如,“从小学”这三个字就有多种划分方法
像"从小学科学",正常的理解的是"从小/学/科学" 。
像“从小学懂事”,可以理解为"从/小学/懂事",也可以理解为"从小/学/懂事"。
以图示表示为“
2.组合型歧义
例如,“中国”这两个字,单独出来大家都很容易理解,但是在下面这两种情况下将有不同的分词方法
像"美国中国面临严重经济问题”,正确的分词是美国/中国/面临/严重/经济/问题“
像"这次地震中国人损失很大",可以理解为”这次/地震中/国人/损失/很大“,也可理解为”这次/地震/中国人/损失很大”
3.混合型歧义
例如:“人才能”,可切分为“人才/能”、“人/才能”、“人/才/能”。
以上种种的各种歧义型类型给中文分词增加了难度,搜索引擎为了解决这些歧义类型,主要还是借助字典和统计学的方法。《新华字典》及中文词汇量最大的《辞海》,都只是包含了日常生活中常用的词汇。但是社会在发展,特别是如今网络的崛起,涌现出大量的网络词汇,这些都是这些字典所不具备的。而对于搜索引擎来说,必须要能够有效地将这些词汇存储在搜索引擎的字典中。
可以理解为搜索引擎是以中国的《辞海》为基础,然后不断扩充的过程。