当前位置: 北京SEO兼职 > SEO技术研究>正文

浅析搜索排名算法之中文分词

    中文分词,相信大家并不陌生。无论是搜索引擎开发的程序员还是有足够经验的SEOer。都应该对其有或多或少的了解。笔者作为搜索引擎开发的程序员,也站在SEOer角度,今天对中文分词进行一些浅谈,并浅析中文分词在搜索引擎优化中的注意事项。
一、 中文分词算法类别
    从中文分词类别来看,常见的分词算法有:正向最大匹配、逆向最大匹配、双向最大匹配、最佳匹配法、最少分词法、词网格算法等等。
二、 常见分词算法简单剖析
1、最大匹配法(Forward Maximum Matching method, FMM法):选取包含6-8个汉字的符号串作为最大符号串,把最大符号串与词典中的单词条目相匹配,如果不能匹配,就削掉一个汉字继续匹配,直到在词典中找到相应的单词为止。匹配的方向是从右向左。
2、逆向最大匹配法(Backward Maximum Matching method, BMM法):匹配方向与MM法相反,是从左向右。实验表明:对于汉语来说,逆向最大匹配法比最大匹配法更有效。
双向匹配法(Bi-direction Matching method, BM法):比较MM法与RMM法的切分结果,从而决定正确的切分。
3、最佳匹配法(Optimum Matching method, OM法):将词典中的单词按它们在文本中的出现频度的大小排列,高频度的单词排在前,频度低的单词排在后,从而提高匹配的速度。
往往在实际应用中各种算法会结合使用,比如:双向最大匹配结合(FMM+BMM),此方法是众多分词公司的做法。
三、 中文分词在SEO实践中的注意事项
    选取关键词时,要注意其分词法则,长尾关键词更是如此。比如做生日蛋糕的。如果结合了地域性,往往效果会更好,比如,生日蛋糕-北京-上海-广州-深圳。这样用户会更容易找到其站。辅关键词排名上来了,也会对主关键词排名起推动作用。
    由于笔者精力有限,今天就浅析到此。有不足的,敬请和我交流,我也会及时补充上去。

 

原创内容,请勿转载,违者必究!

« 上一篇下一篇 »

发表评论:

(输入Email可以获得评论回复通知)

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。