谷歌是世界搜索巨头,百度只是在国内享有盛誉,因此,他们的侧重点是有所不同的。
分词是中文搜索引擎特有的步骤,搜索引擎存储和处理用户的搜索请求,以最短时间反馈高度匹配的结果。缩短检索时间。所以分词的质量直接影响了搜索结果的精确度。
什么是百度中文分词?
中文与英文不同,是由一个个汉字连接成的,因此分起来相对比较复杂。百度的中文分词是将一个汉语句子切分成一个个的单独的词,然后按照一定的规则重新组合成一个序列的过程,简称“中文分词,
当用户向搜索引擎提交查询后,搜索引擎收到用户的信息要做一系列的处理。首先是到数据库里面索引相关的信息。
基于字典匹配的分词方法
这种方法首先得有一个超大的字典,也就是分词索引库,然后按照一定的规则将待分词的字符串与分词库中的词进行匹配,若找到某个词语,则匹配成功,这种匹配有分以下四种方式:1、正向最大匹配法(由左到右的方向);2、逆向最大匹配法(由右到左的方向);3、最少切分(使每一句中切出的词数最小);4、双向最大匹配法(进行由左到右、由右到左两次扫描)
一、词义分词法 这种其实就是进行句法、语义分析,利用句法信息和语义信息来处理歧义现象来分词。
二、基于统计的分词方法虽然分词字典解决了很多问题,但还是远远不够的,搜索引擎还要具备不断的发现新的词语的能力,通过计算词语相邻出现的概率来确定是否是一个单独的词语。发现两个相邻的字出现的频率最多,那么这个词就很重要。
所以,掌握的上下文越多,对句子的理解就越准确,分词也越精确。举个例子说,“搜索引擎优化”,在字典中匹配出来可能是:搜索/引擎/优化、搜/索引/擎/优化,但经过后期的概率计算,发现“搜索引擎优化”在上下文相邻出现的次数非常多,那么基于统计就会将这个词语也加入进分词索引库
三、统计的分词方法 这个很简单,就是根据词组的统计,就会发现两个相邻的字出现的频率最多,那么这个词就很重要。
回归正题,了解百度的分词原理,利用这个原理其实就很容易能把一个词语的排名做上来。
那么我们刚刚学了分词技术,又如何来运用他们为我们的站点获得流量呢?我们可以利用分词技术来增加我们站点长尾词。这样就可以获取流量排名。不但这些分出来的长尾词能够获取一定的排名,也能够推动站点的目标关键词获取很好的排名。
本文来自金戈铁马SEO培训网(www.Gengtima.com),转摘请注明出处。