百度分词技术
发布时间:2021-01-26 21 来源: 互联网

    最近的绿萝算法令很多站长和SEOer们头疼,我们今天主要从分词技术开始讨论百度分词法原理。由于百度是一个商业性质搜索引擎,因此它的算法无法公开。我们只能将其作为黑盒和键入搜索词的方法来分析分词技术。
1、分词算法的几种方法
a、基于理解的分词方法
【举例】:有意见|面|对面地谈
    有意见,我们根据需要会自动把“意”跟“见”组合成“意见”而不是跟“有”组成有意见;然后加“面”那么我们就会理解成为“有意”。
再加上“对面的谈”我们又会理解成为“意见”。这就是一个基于理解的分词方法,但是机器目前还无法模拟这种思维的理解。这种分词方法尚待研究。
b、基于统计的分词方法
【举例】:百度搜索“PHP”,百度搜索的结果只是将关键词“PHP”
的所有前几十页的结果罗列出来。我们再试试“课”,但是结果就不一样,搜索结果会将“课程”也罗列在内。这个原因在于百度基于一个统计的分词方法。百度统
计中在搜索中“课”的跟随词“课程”大量涌现,因此百度自然而然地在搜索“课”的时候自认把“课程”当作关键词。基于一个这样的统计方法组成的词还很多,
简单举几个例子:查->查询;学->学习;题->题目等等。
c、基于字符串匹配的分词方法
    字符串的匹配分为:大小、正反两种情况。
    首先,我们看看百度是否采用最大还是最小的匹配方法。先来看看“杭州达内科技培训”,搜索结果出现“杭州达内科技培训”、“达内科技”、“杭州达内”,“达内培训”四个关键词。从这个搜索结果来看,百度给返回的结果是第一种结果。初步判定百度是最大匹配法则。


    我们再看看一个正向(从左往右匹配)与(反向从有往左)的匹配方法。一起来看看这个词:湖南大学堂屋顶。搜索页返回的结果是“湖南大学|堂屋|顶”。采取的是第一种。同样我们再另外搜索一个词来证明。“刘强大地方法”。
正向最大匹配:刘强大|地|方法
反向最大匹配:刘强|大地|方法
    返回结果是正向最大匹配。这时候我们是不是可以确认百度是采取正向最大匹配方法。我们的搜索结果是否定的。再来看一个词:逐鹿中原
返回的结果是第二种,出现这种情况的结果什么?我们知道,百度还是有一个专有词库的。如果逐鹿中原是专有词库的话,那么就无法说明这种结果是采用了反向最大匹配。所以说,我们在后面再加上2个字“子弹”。“追逐鹿中原子弹”,此时正向最大匹配分法是“追逐|鹿|中原|子弹”。反向最大匹配方法:追逐鹿中原子弹。我们百度搜索:追逐鹿中原子弹,返回结果:追|逐鹿中原|子弹。既不是正向也不是反向的,这说明逐鹿中原在百度词库里是一个不可分割的词。这更加说明我没让你得出百度是最大正向匹配方法是正确的。
    我们再看看一个词:湖南大学堂口腔。返回结果就是:湖南|大学堂|口腔。这是个结果既可以看成是正向最大匹配,也可以看成是反向最大匹配。这个结果的原因在于上述讨论到的关于统计的分词算法。我们可以认为百度会赋予一个关键词的权重。倘若是不可分割的词,那么我们可以认为它的权重是100;反之,如果无法形成词,则权重为0;如果一个词有很多中分法,那么百度会另外给按每种分法得出的词给予相应的权重。
另外我们在文章的结尾再提一个新词:只能重复匹配。
    什么叫只能重复匹配法,看下面这个词:指鹿为马到成功。百度搜索返回结果:将“马”进行了一个2次匹配。这就是一个智能重复匹配,一般而言,2个关键词权重得分差在5以下就进行重复匹配。
   
只能重复匹配是在用户搜索的词语中如果出现歧义,但又不能进行分割的时候就会进行只能匹配,如“春之花好月圆”,那么其实是产生了歧义词,“春之花”我们
从用户搜索到它是属于一种零食同时也是一部电影名称。而“花好月圆”更是一个成语,所以说如何分割就成为了一个难题,如果是百度更能为用户提供更好选择的
匹配结果,它就进行了只能重复匹配,把花字进行了2次重复分词。分成了“春之花”和“花好月圆”。
【总结】百度采用智能重复匹配解决了其一问题,而关键词权重解决了大多数需求问题,从而保证了多数需求得到满足。

本文源自杭州达内,转载注明出处:www.zjtarena.net