编辑: 笨蛋爱傻瓜悦 2019-11-23
数学文化/第2卷第1期69 数学经纬athematics Stories 在如今这个互联网时代,有一家家喻户晓的公司,它自

1998 年问世以来, 在极短的时间内就声誉鹊起, 不仅超越了 所有竞争对手,而且彻底改观了整个互联网的生态.

这家公 司就是当今互联网上的第一搜索引擎 : 谷歌 (Google). 在这样一家显赫的公司背后,自然有许许多多商战故 事,也有许许多多成功因素.但与普通商战故事不同的是, 在谷歌的成功背后起着最关键作用的却是一个数学因素. 本文要谈的就是这个数学因素. 谷歌作为一个搜索引擎,它的核心功能顾名思义,就是 网页搜索.说到搜索,我们都不陌生,因为那是凡地球人都 会的技能.我们在字典里查个生字,在图书馆里找本图书, 甚至在商店里寻一种商品等,都是搜索.如果我们稍稍推究 一下的话,就会发现那些搜索之所以可能,并且人人都会, 在很大程度上得益于以下三条 : 1. 搜索对象的数量较小――比如一本字典收录的字 通常只有一两万个,一家图书馆收录的不重复图书通常不 超过几十万种,一家商店的商品通常不超过几万种等. 2. 搜索对象具有良好的分类或排序――比如字典里 的字按拼音排序,图书馆里的图书按主题分类,商店里的 商品按品种或用途分类等. 3. 搜索结果的重复度较低――比如字典里的同音字 通常不超过几十个,图书馆里的同名图书和商店里的同种商 品通常也不超过几十种. 但互联网的鲜明特点却是以上三条无一满足.事实上, 即便在谷歌问世之前,互联网上的网页总数就已超过了诸如 图书馆藏书数量之类传统搜索对象的数目.而且这还只是 冰山一角,因为与搜索图书时单纯的书名搜索不同,互联 网上的搜索往往是对网页内容的直接搜索,这相当于将图书 内的每一个字都变成了搜索对象,由此导致的数量才是真 正惊人的,它不仅直接破坏了上述第一条,而且连带破坏了

二、三两条.在互联网发展的早期,象Yahoo 那样的门户 网站曾试图为网页建立分类系统,但随着网页数量的激增, 这种做法很快就 挂一漏万 了.而搜索结果的重复度更 是以快得不能再快的速度走向失控.这其实是可以预料的, 因为几乎所有网页都离不开几千个常用词,因此除非搜索 生僻词,否则出现几十万、几百万、甚至几千万条搜索结 果都是不足为奇的. 互联网的这些 不良特点 给搜索引擎的设计带来了极 大的挑战.而在这些挑战之中,相对来说,对

一、二两条的 破坏是比较容易解决的,因为那主要是对搜索引擎的存储空 间和计算能力提出了较高要求,只要有足够多的钱来买 装备 ,这些还算是容易解决的.套用电视连续剧《蜗居》中 卢昌海 数学文化/第2卷第1期70 数学经纬athematics Stories 某贪官的台词来说, 能用钱解决的问题就不是大问题 . 但对第三条的破坏却要了命了,因为无论搜索引擎的硬件如 何强大,速度如何快捷,要是搜索结果有几百万条,那么任 何用户想从其中 海选 出自己真正想要的东西都是几乎不 可能的.这一点对早期搜索引擎来说可谓是致命伤,而且它 不是用钱就能解决的问题. 这致命伤该如何治疗呢?药方其实很简单,那就是对 搜索结果进行排序,把用户最有可能需要的网页排在最前 面,以确保用户能很方便地找到它们.但问题是 : 网页的水 平千差万别,用户的喜好更是万别千差,互联网上有一句 流行语叫做 : 在互联网上,没人知道你是一条狗 (On the Internet, nobody knows you'

re a dog).连用户是人是狗都 没 人知道 ,搜索引擎又怎能知道哪些搜索结果是用户最有可 能需要的,并对它们进行排序呢? 在谷歌主导互联网搜索之前,多数搜索引擎采用的排 序方法,是以被搜索词语在网页中的出现次数来决定排序, 出现次数越多的网页排在越前面.这个判据不能说毫无道 理,因为用户搜索一个词语,通常表明对该词语感兴趣.既 然如此,那该词语在网页中的出现次数越多,就越有可能表 示该网页是用户所需要的.可惜的是,这个貌似合理的方法 实际上却行不大通.因为按照这种方法,任何一个像祥林嫂 一样翻来复去倒腾某些关键词的网页,无论水平多烂,一旦 被搜索到, 都立刻会 金榜题名 ,这简直就是广告及垃圾网 页制造者的天堂.事实上,当时几乎没有一个搜索引擎不被 祥林嫂 们所困扰,其中最具讽刺意味的是 : 堪称互联网 巨子的当年四大搜索引擎在搜索自己公司的名字时,居然只 有一个能使之出现在搜索结果的前十名内,其余全被 祥林 嫂 们挤跑了. 就是在这种情况下,1996 年初,谷歌公司的创始人, 当时还是美国斯坦福大学研究生的佩奇 (Larry Page) 和布林 (Sergey Brin) 开始了对网页排序问题的研究.这两位小伙子 之所以研究网页排序问题, 一来是导师的建议(佩奇后来称 该建议为 我有生以来得到过的最好建议 ) ,二来则是因为 他们对这一问题背后的数学产生了兴趣. 网页排序问题的背后有什么样的数学呢?这得从佩奇 和布林看待这一问题的思路说起.在佩奇和布林看来,网页 的排序是不能靠每个网页自己来标榜的,无论把关键词重复 多少次,垃圾网页依然是垃圾网页.那么,究竟什么才是网 页排序的可靠依据呢?出生于书香门第的佩奇和布林(两人 的父亲都是大学教授)想到了学术界评判学术论文重要性的 通用方法,那就是看论文的引用次数.在互联网上,与论文 引用相类似的显然是网页链接.因此,佩奇和布林萌生了一 个网页排序的思路,那就是通过研究网页间的相互链接来确 定排序.具体地说,一个网页被其它网页链接得越多,它的 排序就越靠前.不仅如此,佩奇和布林还进一步提出,一个 网页越是被排序靠前的网页所链接,它的排序就也应该越靠 前.这一条的意义也是不言而喻的,就好比一篇论文被诺贝 尔奖得主所引用,显然要比被普通研究者所引用更说明其价 值.依照这个思路,网页排序问题就跟整个互联网的链接结 构产生了关系,正是这一关系使它成为了一个不折不扣的数 学问题. 思路虽然有了,具体计算却并非易事,因为按照这种 思路,想要知道一个网页 Wi 的排序,不仅要知道有多少网 页链接了它,而且还得知道那些网页各自的排序――因为来 自排序靠前网页的链接更 值钱 .但作为互联网大家庭的 一员,Wi 本身对其它网页的排序也是有贡献的,而且基于 来自排序靠前网页的链接更 值钱 的原则,这种贡献与 Wi 的排序有关.这样一来,我们就陷入了一个 先有鸡还是先 有蛋 的循环之中 : 想要知道 Wi 的排序,就得知道与它链 接的其它网页的排序,而想要知道那些网页的排序,却又首 先得知道 Wi 的排序. 为了打破这个循环,佩奇和布林采用了一个很巧妙的 思路,即分析一个虚拟用户在互联网上的漫游过程.他们 假定 : 虚拟用户一旦访问了一个网页后,下一步将有相同 的几率访问被该网页所链接的任何一个其它网页.换句话 说,如果网页 Wi 有Ni 个对外链接,则虚拟用户在访问了 Wi 之后,下一步点击这些链接中任何一个的几率均为 1/ Ni.初看起来, 这一假设并不合理, 因为任何用户都有偏好, 怎么可能以相同的几率访问一个网页的所有链接呢?但如 果我们考虑到佩奇和布林的虚拟用户实际上是对互联网上 全体用户的一种平均意义上的代表,这条假设就不象初看 起来那么不合理了.那么网页的排序由什么来决定呢?是 由该用户在漫游了很长时间(理论上为无穷长时间)后访 问各网页的几率分布来决定,访问几率越大的网页排序就 越靠前. 为了将这一分析数学化,我们用 pi(n) 表示虚拟用户在 进行第 n 次浏览时访问网页 Wi 的几率. 显然,上述假设可 以表述为 (请读者自行证明) : pi(n+1) = Σj pj(n)pj → i/Nj 这里 pj → i 是一个描述互联网链接结构的指标函数 (indicator function),其定义是 : 如果网页 Wj 有链接指向网页 Wi,则pj → i 取值为 1,反之则为 0.显然,这条假设所体现的正是 前面提到的佩奇和布林的排序原则,因为右端求和式的存在 表明与 Wi 有链接的所有网页 Wj 都对 Wi 的排名有贡献,而 求和式中的每一项都正比于 pj,则表明来自那些网页的贡献 与它们的自身排序有关,自身排序越靠前(即pj 越大) ,贡 献就越大. 数学文化/第2卷第1期71 数学经纬athematics Stories 为符号简洁起见, 我们将虚拟用户第 n 次浏览时访问各 网页的几率合并为一个列向量 pn,它的第 i 个........

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题