搜索引擎的中文分词方法

admin7年前 (2014-03-15)SEO优化219

中文的搜索引擎,主要以百度,360,搜狗为首。对于中文分词方法繁多,也比较复杂。

搜索引擎在完成网页的查重工作后,在分析系统准备将结果发往索引系统前进行分词工作。相对来说,英文的分词方法会比中文的分词方法简单,因为中国的语言文字博大精深的缘故,中文并没有明显的文字分隔,句子都是连续书写完成。中文分词的意义就是将句子切割成小的词汇单元。

中文分词的难点主要体现在以下三点。

1,交集型歧义

例如,“从小学”这三个字就有多种划分方法

像"从小学科学",正常的理解的是"从小/学/科学" 。

像“从小学懂事”,可以理解为"从/小学/懂事",也可以理解为"从小/学/懂事"。

以图示表示为“

image

2.组合型歧义

例如,“中国”这两个字,单独出来大家都很容易理解,但是在下面这两种情况下将有不同的分词方法

像"美国中国面临严重经济问题”,正确的分词是美国/中国/面临/严重/经济/问题“

像"这次地震中国人损失很大",可以理解为”这次/地震中/国人/损失/很大“,也可理解为”这次/地震/中国人/损失很大”


3.混合型歧义

例如:“人才能”,可切分为“人才/能”、“人/才能”、“人/才/能”。


以上种种的各种歧义型类型给中文分词增加了难度,搜索引擎为了解决这些歧义类型,主要还是借助字典和统计学的方法。《新华字典》及中文词汇量最大的《辞海》,都只是包含了日常生活中常用的词汇。但是社会在发展,特别是如今网络的崛起,涌现出大量的网络词汇,这些都是这些字典所不具备的。而对于搜索引擎来说,必须要能够有效地将这些词汇存储在搜索引擎的字典中。

可以理解为搜索引擎是以中国的《辞海》为基础,然后不断扩充的过程。


相关文章

Google的AMP项目

Google的AMP项目

一直关注SEO行业的动态,最近Google的AMP项目已开始试运行,并且收效良好。什么是Google的AMP项目,AMP,Accelerated Mobile Pages,译意大致是”加速的移动页面”...

百度site指令不在第一位是K站的预告吗

百度site指令不在第一位是K站的预告吗

在网上有很多站长质疑,百度site指令时,主站不在第一位了,是不是我的爱站要被K了?对于站长的这个问题,珠海SEO也纠结了很久,起初也认为有这个可能,不过在后来查阅了很多相关权威性的资料后,否认了这个...

SEO问答五:网站内链优化与外链优化的方法

SEO问答五:网站内链优化与外链优化的方法

网站内链是什么 网站内链就是本网站内部页面之间的链接。最通俗的说法是自己在自己的网站上添加链接,就是在同一网站域名下的各内容页面间的互相链接。而网站外链就是其它网站导入到自己网站的链接。做好...

百度的天网算法有什么用

百度的天网算法有什么用

今天在百度站长平台看到百度的最新动态,“天网算法”出台,百度严打盗取用户隐私。近日,百度网页搜索发现部分站点存在盗取用户隐私的行为,主要表现为网页嵌恶意代码,用于盗取网民的QQ号、手机号。而许多网民却...

seo接单成功宝典

seo接单成功宝典

作者是驻扎在珠海的一线码农,因某次的机缘巧合,与seo接下了不解之缘,从此一发不可收拾。除了接些网站建设的单子,seo优化的单子也逐渐增多。相信很多的SEOer和我一样,喜好seo这个行业,正如我喜欢...

特征权重计算——逆文档频率因子

特征权重计算——逆文档频率因子

什么是逆文档频率因子,简称IDF,IDF反映了在文档集合中一个单词对一个文档的重要性,经常在文本数据挖据与信息提取中用来作为权重因子。在一份给定的文件里,词频(termfrequency-TF)指的是...

评论列表

互传电商网
6年前 (2015-07-18)

不错

民间偏方大全
7年前 (2014-07-29)

外链才是最重要的

无锡SEO
7年前 (2014-06-21)

利用好搜索引擎分词技术可以命中更多长尾

互传站长网
7年前 (2014-05-17)

不知细叶谁裁出,二月春风似剪刀

kindle之家
7年前 (2014-04-01)

明白了分词的用法

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。