百度谈网页搜索排序中的投票模型

金戈铁马SEO培训网 http://www.Gengtima.com/ June-1 10:24:16

系统里有n个网页，有m个特征(页面质量、页面内容丰富度、页面超链、文本相关性等)对n个网页有不同的打分，如何根据这些特征的“投票”，选出最适合放在第一位的网页呢？

从选举的例子中，我们可以得到的几个启示：

1. 设计算法时，要避免出现“赢者通吃”带来的信息丢失问题。

2. 不要因为某几个特征特别好，就把某个网页排到最前，或者因为某几个特征特别差，就把某个网页抛弃。

3. 最合适放在首位的网页不一定是在每个特征上都最好，而应该是能够兼顾所有特征，综合表现最好的那个。

4. 搜索引擎使用者对搜索结果的点击行为，可以看成是对搜索结果进行的“投票”，这样的“投票”信息的使用方式，也要注意考虑是否会带来选举过程中出现的种种不合理。

以上提到的种种选举方案，仅仅是对“多候选人单职位的”的情况进行讨论，而搜索引擎面对的问题，则更类似于“多候选人排序”的情况，也即：

系统里有n个网页，有m个特征(页面质量、页面内容丰富度、页面超链、文本相关性等)对n个网页有不同的打分，如何根据这些特征的“投票”，决定n个网页的顺序？

而这个“多候选人排序”问题，是有一个“不可能的民主”的理论的，该理论的大意是，“合理”的民主应该满足3个条件：

1. 如果选民都认为A比B好，那么最终结果应该也是A比B好

2. 没有“独裁者”，也即，不存在这样一个人，无论别人怎么排序，最终结果的排序都和这个人的排序一致

3. 无关因素独立性，也即，在第一次投票完成后，A排在B前面，现在进行第二次投票，如果所有人都没有改变自己投票中A和B的相对顺序，那最终结果应该也是A在B前面

而通过数学的证明，可以得出结论：如果某种选举方式满足条件1和3，则必然不满足2，也即必然存在“独裁者”，这个问题的证明，可以参考这篇博客：http://roba.rushcj.com/?p=509

根据“不可能的民主”理论，和搜索引擎结合起来看，似乎搜索引擎很难给出一个合理的网页排序，但是搜索引擎和投票又似乎有所不同，有两个角度可以破解：

1. 认为条件3过于强，需要弱化。

2. 也许在网页排序问题上，真的存在这样一个“独裁特征”，这个“独裁特征”从目前看来，最适合的应该就是“用户满意度”了，按照用户的满意程度来排序网页，就是最合理的网页排序。如何衡量“用户满意度”呢？这就是我们一直在努力的。

本文来自金戈铁马SEO培训网（www.Gengtima.com），转摘请注明出处。

欧阳淳老师