网络历史回顾…
在网络诞生后浏览器快速发展的推动下,Mosaic 成为最受欢迎的选择。 认识到网络的商业潜力,O’Reilly 的一个团队创建了 GNN,第一个商业网站。 随着浏览器和网站的出现,越来越多的人开始使用网络。许多人创建了属于自己的小型个人网站。 网络上最好的内容几乎无法找到。
eBay 已经受够了这些蜘蛛。他们成千上万地阻止了它们。他们的服务器嗡嗡作响,不停地运转;源源不断的入侵者。然而,其中一个攻击者高高在上。Bidder’s Edge 自称是一个拍卖聚合器,它会定期爬取 eBay 页面,提取其内容并将其与其自己的网站上的其他拍卖列表一起列出。
这个著名的拍卖网站过去曾试图阻止 Bidder’s Edge,但没有成功。就像一场复杂的打地鼠游戏一样,他们会限制 Bidder’s Edge 服务器的 IP 地址,却总是被一个新的代理服务器用新的 IP 地址突破。技术失败了。诉讼是下一个步骤。
1999 年 12 月,eBay 起诉了 Bidder’s Edge,指控其存在若干罪责。其中包括“一种古老的侵占理论,法律学者称之为侵占动产,基本上是对不动产(物体、动物或在本例中为服务器)的侵占或干涉。” 换句话说,eBay 声称 Bidder’s Edge 正在侵犯其服务器,以最中世纪的意义上说。为了构成侵占动产,eBay 必须证明侵占者造成了损害。他们辩称,他们的服务器因负荷过重而瘫痪,就是这种损害的证据。

法官 Ronald M. Whyte 认为最后一点很有说服力。此后发生了很多来来回回,在一个新时代的奇特诉讼中,官方法庭记录中出现了“粗鲁的机器人”一词。这些机器人(与“礼貌的”机器人不同)忽略了 eBay 阻止其网站上的爬取请求,并尽一切努力规避反制措施。据法官估计,它们在侵占。怀特颁布了禁令,阻止 Bidder’s Edge 爬取 eBay,直到一切解决为止。
经过几轮上诉、反诉和反上诉,该案最终和解。Bidder’s Edge 向 eBay 支付了一笔未公开的金额,并立即关门大吉。eBay 在这场战斗中获胜。他们摆脱了机器人。但真正的战争已经失败了。机器人(粗鲁与否)已经存在。
如果不是斯坦福大学,网络搜索可能已经消失了。它是雅虎、谷歌和 Excite 的诞生地。它运行着服务器,服务器运行着代码,代码运行着第一个搜索引擎。雅虎和谷歌的创始人都是该校校友。但许多搜索领域的知名人士并不在计算机科学系,而是在符号系统项目中。
符号系统于 1985 年在斯坦福大学创建,旨在研究“表示、处理和处理信息的自然系统和人工系统之间的关系。” 它的跨学科方法植根于几个领域的交汇点:语言学、数学、符号学、心理学、哲学和计算机科学。
这些都是 20 世纪下半叶人工智能研究的核心领域。但这不是现代智能家居中的人工智能,而是计算机科学家们所设想的,作为通往未来计算技术路线图的更经典的概念。它是将机器理解为增强人类思维的一种方式。这种并行并非偶然。符号系统项目中最重要的研究领域之一就是人工智能。
该项目的校友中包括 Excite 的几位创始人以及雅虎的第四位员工 Srinija Srinivasan。她在人工智能领域的工作使她从大学毕业后就加入了雄心勃勃的人工智能研究实验室 Cyc。
Marisa Mayer 是谷歌的早期员工,后来担任雅虎的首席执行官,她在符号系统项目期间也借鉴了人工智能研究。她的开创性论文项目利用自然语言处理,通过与计算机的简单对话帮助用户找到最佳航班。“你观察人们如何学习、如何推理,并让计算机做同样的事情。这就像在没有血腥的情况下研究大脑,”她后来谈到该项目时说道。

网络搜索起源于同一机构同一项目中的短暂时刻。并非所有参与搜索引擎的人都在该项目中学习——例如,雅虎和谷歌的创始人都是计算机科学专业的研究生。但搜索的理念深深植根于人工智能的传统。毕竟,搜索的目标是从大脑中提取问题,并利用机器提供合适的答案。
在雅虎,人工智能的原则充当指南,但它将得到人类视角的帮助。与 Excite 一样的网络爬虫将承担用户查询的重担,并尝试以编程方式将网站映射到一起,以提供智能结果。
然而,在谷歌,人工智能将成为一个明确的目标。Steven Levy 撰写了关于谷歌历史的权威书籍,In the Plex,他将谷歌描述为“实现人工智能增强人类梦想的工具”。创始人 Larry Page 和 Sergey Brin 不断提到人工智能。他们甚至在他们的第一次新闻发布会上提到了它。
区别在于方法。这种紧张局势将在接下来的半个世纪主导搜索。目录与爬虫。人类影响力的精确性与机器的完整性。冲浪者在一边,蜘蛛在另一边。只有一方能存活下来。
第一批蜘蛛很粗糙。它们在黑暗中摸索,直到找到网络的边缘。然后它们就回家了。有时它们会收集到一些关于它们爬取的网站的信息。一开始,它们什么信息都没有收集到。
最早的网络爬虫之一是由麻省理工学院的 Matthew Gray 开发的。他使用他的 World Wide Wanderer 去寻找网络上的每个网站。他不关心这些网站的内容,他只是想统计一下。1993 年夏天,他第一次派出爬虫时,它找到了 130 个网站。一年后,它统计了 3000 个网站。到 1995 年,这个数字增长到近 30000 个。
像搜索引擎业务中的许多同行一样,Gray 是信息检索的信徒,信息检索是致力于知识共享的计算机科学的一个分支。在实践中,信息检索通常涉及一个机器人(也称为“蜘蛛、爬虫、漫游者和蠕虫”),它会爬过数字文档并以编程方式收集其内容。然后,它们被解析并存储在一个中心化的“索引”中,这是一个捷径,可以消除每次进行搜索时都需要去爬取每个文档的需要。保持索引的最新是一个持续的挑战,机器人需要保持警惕;几乎不断地返回并重新爬取信息。
万维网提出了一个难题。它不是一组可预测的文档,而是理论上无限数量的网站可以存在于网络上。这些需要存储在一个中心索引中——这将以某种方式保持最新。最重要的是,这些网站的内容需要与用户想要搜索的内容实时连接,并在几秒钟内完成。对于一些信息检索研究人员和学者来说,这个挑战是无法抗拒的。比如 Jonathan Fletcher。
Fletcher 曾经是苏格兰斯特灵大学的研究生和 IT 员工,他不喜欢寻找网站的难度。当时,人们依赖手工列表,比如 CERN 维持的 WWW 虚拟图书馆,或者 Mosaic 的每日更新的“最新内容”列表。Fletcher想用另一种方式处理这个问题。“我拥有计算机科学学位,我意识到必须有一种更好的方法,所以我决定编写一些东西来帮我寻找。”
他在 1993 年创建了 Jumpstation,这是最早的可搜索索引示例之一。他的爬虫会出去,尽可能多地跟踪链接,并将它们带回可搜索的中心化数据库。然后它会重新开始。为了解决网络无限广阔的问题,Fletcher 从只爬取每个网页的标题和一些元数据开始。这使得他的索引保持了相对较小的规模,但也将搜索限制在页面的标题中。
Fletcher 并不孤单。在经过几个月的修补后,WebCrawler 于 1994 年 4 月在华盛顿大学推出。它有幸成为第一个爬取整个网页并使其可搜索的搜索引擎。到当年 11 月,WebCrawler 已处理了 100 万次查询。在卡内基梅隆大学,Michael Maudlin 发布了自己的基于蜘蛛的搜索引擎变体,以拉丁语翻译的狼蛛命名,即 Lycos。到 1995 年,它已经索引了超过 100 万个网页。

搜索并没有在大学中停留很长时间。搜索引擎对于那些在网络上寻找完美网站的迷路用户来说,具有独特的实用性。许多用户从搜索引擎开始他们的网络会话。Netscape Navigator——新网络用户的首选浏览器——在其主页上将用户直接连接到搜索引擎。被 Netscape 列出意味着流量。流量意味着利润丰厚的广告交易。
在1990年代后期,许多主要参与者进入了搜索引擎市场。InfoSeek最初是一个付费搜索选项,后来被迪士尼收购,并很快成为Netscape的默认搜索引擎。AOL采取大胆的策略,收购了WebCrawler,以保持其在网络上的竞争力。Lycos被一位风险投资家收购,并将其转变为一家完全商业化的企业。
Excite.com是另一个由斯坦福大学校友创建的网络爬虫,因其结果的深度和准确性而成为搜索引擎领域一颗冉冉升起的新星,在他们推出不久后就获得了300万美元的报价。它的六位联合创始人排成两排沙发,面对面地谈了整晚。他们决定坚持这个产品,并引进一位新任首席执行官。他们将赚取更多的数百万美元。

AltaVista是在1995年底才进入这个游戏,由数字设备公司创建。它最初是为了展示DEC计算机的处理能力而建立的。他们很快意识到,他们的多线程爬虫能够以比竞争对手快得多的速度索引网站。AltaVista会定期部署其爬虫—— 一位研究人员称之为“蜘蛛群”——一次性索引数千个网站。
因此,AltaVista能够索引几乎整个网络,在发布时索引了近1000万个网页。到次年1996年,他们已经索引了超过1亿个网页。由于其机器的效率和性能,AltaVista能够解决可扩展性问题。与他们的一些前辈不同,他们能够使网站的全部内容可搜索,并且他们每隔几周就重新爬取网站,这比早期竞争对手快得多,后者可能需要几个月才能更新其索引。他们为网络爬虫的深度和范围设定了标准。

AltaVista从未完全休息,它利用其搜索引擎作为创新的工具,尝试使用自然语言处理、翻译工具和多语言搜索。他们往往领先于时代,在视频和图像搜索成为人们预期功能的几年之前就提供了这些功能。
那些没有被热潮席卷而来的蜘蛛赶不上。托管第一个搜索引擎的大学对看到他们的互联网连接因与大学无关的流量而膨胀并不感到高兴。大多数大学都迫使第一个实验性搜索引擎,如Jumpstation,关闭。但斯坦福大学除外。
斯坦福大学在科技创新方面的历史可以追溯到20世纪下半叶。当时,这所大学正处在沦为二流机构的边缘。他们一直在失去地位和利润丰厚的合同,落后于东海岸的竞争对手。在第二次世界大战之后,哈佛大学和麻省理工学院成为研究热潮的中心。斯坦福大学落在了后面。
1951年,为了扭转其下降趋势,工程学院院长弗雷德里克·特曼与帕洛阿尔托市达成协议。斯坦福大学同意在该市为一家新的工业园区征用700英亩土地,加州的新兴公司可以利用该园区。斯坦福大学将靠近充满活力的创新。选择迁入那里的企业将获得独特的访问斯坦福大学学生的机会,以便用于产品开发。帕洛阿尔托市将获得大量新税收。
惠普是第一批迁入该园区的公司之一。他们开创了以计算为中心的全新工业时代,不久之后,这个时代被称为硅谷。斯坦福研究园(后来更名为斯坦福工业园)最终在快速成功和实验的时期内托管了施乐。Facebook在其起步阶段就在那里成长,并发展成为今天的庞然大物。斯坦福大学是这一切的中心。
研究园将这所大学从停滞不前的状态转变为创业和尖端技术的中心。它将他们置于科技产业的核心。斯坦福大学在20世纪下半叶的关键技术发展中,包括互联网和万维网,在物流和财务方面都融入了其中。
因此,雅虎的潜在成功并没有被忽视。
杰里·杨和戴维·费罗本不应该在雅虎工作。然而,他们应该在一起工作。他们早在几年前就认识了,当时戴维是杰里在斯坦福计算机科学项目中的助教。杨最终作为研究生加入了费罗,并且——在建立了牢固的关系之后——他们很快发现自己正在一起做项目。
当他们挤在一间大学拖车里开始进行博士项目时,他们的关系变得像 杨经常描述的那样完美平衡。“我们对彼此都非常宽容,但对其他一切都非常挑剔。我们都很固执,但在理解我们要去哪里时,我们都不固执。我们给彼此所需的空间,但在需要时也互相帮助。”
1994年,费罗向杨展示了网络。仅仅在一瞬间,他们的注意力就转移了。他们将预定的计算机科学论文放到一边,通过沉浸在万维网的深处来拖延论文的撰写。几天变成了几周,几周变成了几个月,他们一直在上网,交换链接。他们最终决定将他们的列表合并到一个地方,一个托管在他们斯坦福大学互联网连接上的网站。它被称为“杰里和戴维的万维网指南”,最初于1993年推出,面向斯坦福大学的学生,然后于1994年1月推出,面向全世界。这个名字虽然不那么朗朗上口,但这个想法(和流量)却像朋友们相互分享一样迅速流行起来。
“杰里和戴维的指南”是一个目录。就像在CERN启动的虚拟图书馆一样,杨和费罗将网站组织成各种类别,这些类别都是他们即兴编造的。其中一些类别的名称很奇怪或很耸人听闻。其他的类别完全符合您的预期。当某个类别变得太大时,他们就会将其拆分。它既是临时性的,又是笨拙的,但并非没有魅力。通过他们的分类,杨和费罗赋予了他们的网站个性。“他们”的个性。几年后,杨 经常将此称为“雅虎的声音!”
那个声音成为了新用户的指南——正如该网站最初的名称所暗示的那样。他们的网络爬虫竞争对手在索引数百万个网站方面技高一筹。杨和费罗的网站只包含网络中的一小部分。但至少在他们看来,这是网络中最好的内容。它是最酷的网络。它也是一个比以往任何时候都更容易浏览的网络。

1994年底,杨和费罗将他们的网站更名为雅虎!(一个笨拙的强迫式缩写,代表Yet Another Hierarchical Officious Oracle)。到那时,他们每天的点击量已接近10万次,有时会暂时使斯坦福大学的互联网瘫痪。大多数其他大学都会关闭该网站,并告诉他们回到工作岗位。但斯坦福大学没有这样做。斯坦福大学花了数十年的时间为像这样在校园内运营的企业做准备。他们让服务器继续运行,并鼓励其创建者在硅谷开辟自己的道路。
在整个1994年,网景都将雅虎包含在其浏览器中。工具栏上有一个名为“网络目录”的按钮,直接链接到雅虎。马克·安德森相信该网站的未来,同意在网景的服务器上托管他们的网站,直到他们能够站稳脚跟。

杨和费罗挽起袖子,开始与投资者交谈。这不会花太长时间。到1996年春天,他们将拥有一位新任首席执行官,并举行他们自己的创纪录的首次公开募股,甚至超过了他们慷慨的东道主网景。到那时,他们已成为网络上最受欢迎的目的地,而且优势很大。
与此同时,网络已经发展到远远超出了两个朋友交换链接的能力。他们已经设法对数万个网站进行了分类,但还有数十万个网站需要爬取。“我将杰里·杨想象成查理·卓别林在《摩登时代》中的样子,” 一位记者描述道,“面对着不断增加的工作量,而且速度越来越快。”组织网站的任务必须交给其他人。杨和费罗在一个斯坦福大学的校友身上找到了帮助,这个人是他们在几年前在日本留学时认识的,他叫斯里尼贾·斯里尼瓦桑,是一位符号系统专业的毕业生。雅虎最早的几名员工都获得了略带荒谬的头衔,这些头衔总是以“雅虎”结尾。杨和费罗被称为首席雅虎。斯里尼瓦桑的职位是本体论雅虎。
这是一个有意的、精确的职位名称,并非偶然选择。本体论是对存在的研究,试图将世界分解为其组成部分。它在历史上和世界上的许多传统中都有体现,但它与苏格拉底的追随者、柏拉图的作品以及后来亚里士多德撰写的开创性文本《形而上学》联系最为紧密。本体论提出了“什么存在?”这个问题,并以此作为思想实验来构建一种存在和本质的意识形态。
随着计算机的出现,本体论在人工智能新兴领域中找到了新的意义。它被改编以适应机器感知世界所需的更正式的层次分类;以思考世界的方式。本体论成为描述智能机器如何将事物分解成类别并共享知识的一种基本方法。
斯里尼贾·斯里尼瓦桑在斯坦福大学学习期间,应该熟悉形而上学和计算机科学的本体论的双重定义。她在学习中将哲学和人工智能相结合,让她对层次分类有了独特的见解。正是这段经历,她带到了她在大学毕业后的第一份工作——赛克项目,这是一个人工智能研究实验室,有一个大胆的项目:教计算机常识。

在雅虎,她的任务同样大胆。当有人在该网站上搜索某个东西时,他们不想得到一个随机的相关结果列表。他们想要他们真正在想的结果,但他们并不知道如何描述它。雅虎必须——在几秒钟内——弄清楚用户真正想要什么。就像她在人工智能领域的工作一样,斯里尼瓦桑需要教雅虎如何思考查询并推断出正确的结果。
为此,她需要将雅虎的声音扩展到成千上万个网站,涵盖数十个类别和子类别,同时不丢失由杰里和戴维建立的观点。她需要扩展这种视角。“这不是一种敷衍的存档练习。这是在定义存在的本质,” 她曾经谈到自己的项目时说。“类别和分类是我们每个世界观的基石。”
她以稳定的速度将人类经验的本体映射到网站上。她开始分解从网站创建者那里继承来的临时类别,并将它们重新构成更具体、更易于查找的索引。她创建了新的类别,并销毁了旧的类别。她将现有的主题细分为新的、更精确的主题。她开始交叉链接结果,以便它们可以存在于多个类别中。在几个月内,她用一个全新的层次结构彻底改造了该网站。
然而,这种分层本体仅仅是一个指导方针。雅虎扩张的强大之处在于,在此期间,她聘用了 50 多位内容管理人员。他们被称为冲浪者。他们的工作是在网上冲浪——并整理信息。
每个冲浪者都接受了雅虎方法论的培训,但他们拥有令人惊讶的编辑自由。他们根据自己的兴趣培养目录,仔细考虑网站及其所属位置。每个决定都可能很费力,并且在此过程中会发生失误和分类错误的项目。但是,通过允许个人个性来决定层次结构的选择,雅虎保留了自己的声音。
他们收集了尽可能多的网站,每天添加数百个。雅虎冲浪者并没有向其网站访问者展示网络上的所有内容。他们向他们展示了什么是酷的。对于那些第一次了解网络能力的用户来说,这意义重大。
在 1995 年底,雅虎员工密切关注着他们的流量。员工们围坐在控制台旁,一遍又一遍地检查日志,寻找访问者数量下降的迹象。多年来,雅虎一直是网景“互联网目录”按钮的目的地。它一直是他们增长和流量的来源。网景在最后一刻(似乎是随机的)做出了决定,放弃了雅虎,用新来的孩子 Excite.com 取代了他们。最好的情况:可控的下跌。最坏的情况:雅虎的消亡。
但下降从未到来。一天过去了,然后又一天过去了。然后是一周。然后是几周。雅虎仍然是最受欢迎的网站。雅虎的第一批员工之一蒂姆·布雷迪,对那一刻表示真诚的惊讶。“感觉就像地板在两天内就被抽走了,而我们仍然站着。我们四处张望,等着事情以各种方式崩溃。我们只是觉得,我想我们现在只能靠自己了。”
网景不会长时间保持其目录按钮的排他性。到 1996 年,他们开始允许其他搜索引擎列在其浏览器的“搜索”功能中。用户可以点击一个按钮,就会出现一个下拉选项列表,收取一定费用。雅虎为自己买回了下拉菜单。与他们一起加入的还有另外四家搜索引擎,分别是 Lycos、InfoSeek、Excite 和 AltaVista。
在那时,雅虎已经成为无可争议的领导者。它已将其先发优势转变为一项新战略,该战略由成功的首次公开募股和大量新投资支撑。雅虎想要成为不仅仅是一个简单的搜索引擎。他们网站的转型最终被称为门户网站。它是网络上所有可能需求的中心位置。通过一系列产品扩展和积极的收购,雅虎发布了一套新的品牌数字产品。需要发送电子邮件?试试雅虎邮箱。想要创建网站?有雅虎城市。想要跟踪你的日程安排?使用雅虎日历。这个列表还可以继续下去。

竞争对手争先恐后地填补了第二名的空缺。1996 年 4 月,雅虎、Lycos 和 Excite 都进行了首次公开募股,股价飙升。Infoseek 几个月后进行了首次公开募股。大笔交易与大胆的未来蓝图相撞。Excite 开始将自己定位为雅虎更具活力的替代品,其搜索结果更准确,来自网络的更大一部分。与此同时,Lycos 几乎完全放弃了带来他们最初成功的搜索引擎,转而追逐门户网站游戏计划,该计划为雅虎带来了意外之财。
媒体称这场竞争为“门户大战”,这是网络历史上短暂的一刻,数百万美元涌入单一战略。成为网络冲浪者最大、最好、最集中的门户网站。任何为用户提供网络目的地的服务都被扔进了竞技场。网络的未来(以及数十亿美元的广告行业)岌岌可危。
然而,在某种程度上,门户大战在开始之前就结束了。当 Excite 宣布与互联网服务提供商 @Home 合并,以整合他们的服务时,并非所有人都认为这是一项明智之举。“AOL 和雅虎已经领先,” 一位投资者和有线电视行业资深人士指出,“没有第三大门户的容身之地。”AOL 拥有足够的肌肉和影响力来挤进第二名的位置,紧追雅虎的步伐。其他人将不得不与巨人正面交锋。没有人能够成功地做到这一点。
在争夺市场主导地位的过程中,大多数搜索引擎只是失去了对搜索的关注。在您的电子邮件、股票行情和体育频道旁边,大多数情况下隐藏着一个二流的搜索引擎,您可以使用它来查找信息——只是不常使用,而且效果不佳。这就是为什么另一个来自斯坦福的搜索引擎,只用一个搜索框和两个按钮推出时,让人耳目一新,它明亮多彩的徽标贴在顶部。
在推出几年后,谷歌就进入了最受欢迎网站的候选名单。在 2002 年接受 PBS 新闻时报采访时,联合创始人拉里·佩奇 描述了他们的长期愿景。“事实上,最终的搜索引擎,它会理解,你知道,当你输入查询时你到底想要什么,它会给你返回完全正确的东西,在计算机科学中我们称之为人工智能。”
谷歌可以从任何地方开始。它可以从任何东西开始。一位员工 回忆起与网站创始人早期的对话,他说:“我们对搜索并不真正感兴趣。我们正在制造人工智能。”拉里·佩奇和谢尔盖·布林,谷歌的创始人,并没有试图创造网络上最伟大的搜索引擎。他们试图创造网络上最智能的网站。搜索只是他们最合乎逻辑的起点。
基于蜘蛛的 1996 年的搜索引擎,不精确且笨拙,面临着艰苦的战斗。AltaVista 已经证明,整个网络,数千万个网页,都可以被索引。但是,除非您精通布尔逻辑命令,否则很难让计算机返回正确的结果。用佩奇的话来说,这些机器人还没有准备好推断“你到底想要什么”。
雅虎用他们的冲浪者填补了这些技术上的空白。冲浪者能够修正计算机,逐块设计他们的目录,而不是依赖算法。雅虎成为了一种网络时尚的仲裁者;信息时代的品味制定者。雅虎的冲浪者设定了持续多年的潮流。您的网站将由他们决定生死。机器无法独自完成这项工作。如果您想让您的机器变得智能,您需要人来引导它们。
佩奇和布林不同意。他们认为计算机可以很好地处理这个问题。他们旨在证明这一点。
这种毫不动摇的信心,比起他们的“不作恶”格言,更能定义谷歌。在初期,他们专注于设计网络的未来,这让他们对现在的日常工作视而不见。不止一次,开给公司的数十万美元支票,被放在抽屉里或汽车后备箱里,直到有人终于腾出时间去存入。他们经常以不同的方式做事。例如,谷歌的办公室是仿照大学宿舍建造的,创始人认为这种环境最有利于产生重大想法。
谷歌最终将在自己设计的复杂、世界一流的基础设施之上建立一个真正的帝国,该基础设施由有史以来最复杂、最复杂(可以说也是最具侵入性)的广告机制驱动。很少有公司像谷歌一样庞大。这家公司,和其他公司一样,起源于斯坦福大学。
即使在最著名的 AI 专家中,特里·维诺格拉德,一位计算机科学家和斯坦福大学教授,也脱颖而出。他也是拉里·佩奇在计算机科学系攻读研究生时期的导师和导师。维诺格拉德经常回忆起他从佩奇那里收到的非正统和独特的论文项目提议,其中一些涉及“太空系绳或太阳能风筝”。“这更像是科幻小说,而不是计算机科学,”他后来评论道。
但尽管他有着天马行空的想象力,佩奇总是在关注万维网。他发现它的超链接结构令人着迷。它的单向链接——网络成功的关键因素——导致了大量新网站的激增。1996 年,当佩奇第一次开始关注网络时,每周新增数万个网站。网络的妙招是实现只能单向传播的链接。这使得网络可以去中心化,但如果没有一个中心数据库跟踪链接,几乎不可能收集所有指向特定网页的网站列表。佩奇想要建立一个谁指向谁的图表;一个可以用来交叉引用相关网站的索引。
佩奇理解超链接是学术引用的一种数字模拟。衡量某篇学术论文价值的关键指标是它被引用的次数。如果一篇论文被经常引用(由其他高质量论文引用),那么更容易证明它的可靠性。网络的工作方式相同。您的网站被链接的次数越多(称为反向链接),它可能越可靠和准确。
理论上,您可以通过将所有指向该网站的其他网站加起来来确定该网站的价值。但这只是一层而已。如果 100 个网站链接到您,但每个网站只被链接过一次,那么这远不如 5 个每个都被链接过 100 次的网站链接到您有价值。所以,重要的不仅仅是您有多少链接,还有这些链接的质量。如果您将这两个维度都考虑在内,并使用反向链接作为标准来聚合网站,那么您就可以很快开始组装一个按质量排序的网站列表。
约翰·巴特尔在自己的谷歌故事改编版《搜索》中描述了佩奇面临的技术挑战。
佩奇意识到,指向页面的原始链接数量将是该页面排名的有用指南。他还发现,每个链接都需要有自己的排名,基于其源页面的链接数量。但这种方法会造成一个困难的递归数学挑战——您不仅要统计特定页面的链接,还要统计链接到这些链接的链接。数学很快就会变得很复杂。
幸运的是,佩奇已经认识一位数学神童。谢尔盖·布林在开始斯坦福大学计算机科学系博士课程之前,就多次向全世界证明了他的才华。布林和佩奇在很多场合相遇,这种关系从一开始就并不融洽,但后来逐渐发展成相互尊重。佩奇想法的核心数学难题,对布林来说太诱人,他无法拒绝。
他开始着手解决方案。“基本上,我们将整个网络转化为一个大型方程式,包含数亿个变量,”他后来解释道,“这些变量代表所有网页的页面排名,以及数十亿个链接。我们能够解开这个方程式。”斯科特·哈桑,鲜为人知的谷歌第三位联合创始人,开发了他们的第一个网络爬虫,他更为简洁地总结道,将谷歌的算法描述为“逆向浏览网页”!
结果就是 PageRank——指的是拉里·佩奇,而非网页。布林、佩奇和哈桑开发了一种算法,可以追踪网站的回链,以确定特定网页的质量。网站回链的价值越高,排名就越高。他们发现了许多人错过的关键点:如果你用正确的来源(回链)训练机器,就能获得惊人的结果。
只有在将排名与搜索查询匹配后,他们才意识到 PageRank 最适合用在搜索引擎中。他们将他们的搜索引擎命名为 Google。它于 1996 年 8 月在斯坦福大学的互联网连接上启动。

Google 解决了过去困扰在线搜索的关联性问题。像 Lycos、AltaVista 和 Excite 这样的爬虫能够提供与特定搜索匹配的网页列表,但它们无法正确排序,因此用户必须仔细查找才能找到想要的结果。Google 的排名立即具有关联性。搜索结果的第一页通常包含所需内容。他们对自己的结果非常自信,还添加了“我很幸运”按钮,直接将用户带到搜索结果的第一页。
Google 早期的发展与雅虎类似。它们通过口碑传播,从朋友到朋友的朋友。到 1997 年,Google 已经发展到足以给斯坦福网络带来压力,杨致远和费罗几年前也曾做过同样的事情。斯坦福大学再次看到了可能性,没有将 Google 从服务器上赶走。相反,斯坦福大学的顾问将佩奇和布林推向了商业方向。
最初,创始人试图将其算法出售或授权给其他搜索引擎。他们与雅虎、Infoseek 和 Excite 会面。没有人能看到它的价值,他们都专注于门户网站。在不久后听起来很荒谬的一件事中,他们都放弃了以不到 100 万美元的价格收购 Google 的机会,佩奇和布林也无法找到认可他们愿景的合作伙伴。
一位斯坦福大学的教职工帮助他们联系了几位投资者,包括杰夫·贝佐斯和大卫·切里顿(他们获得了最初的几张支票,这些支票在抽屉里放了好几个星期)。他们在 1998 年 9 月正式注册成立,搬进了朋友的车库,并招募了几位早期员工,包括符号系统校友玛丽莎·梅耶尔。

即使在获得 100 万美元投资后,Google 的创始人也坚持节俭、简单和快速的理念。尽管投资者偶尔会敦促他们,但他们仍然抵制门户网站战略,专注于搜索。他们继续调整算法,努力提高结果的准确性。他们专注于机器,希望将用户搜索的关键词转化为有意义的东西。如果用户无法在搜索结果的前三条中找到想要的东西,那么 Google 就失败了。
Google 伴随着媒体的炒作和积极的宣传。在《新闻周刊》上,史蒂文·莱维将 Google 描述为“德尔菲神谕的高科技版本,让每个人只需点击鼠标就能找到最深奥问题的答案——并以非常高效的方式提供简单的答案,从而让人上瘾。”大约在那个时候,“谷歌”(指代该网站的动词,与搜索同义)进入日常用语。门户网站大战仍在继续,但 Google 以其冷静精准的方式在喧嚣中脱颖而出。
1998 年底,他们的日搜索量达到 10,000 次。一年后,这一数字跃升至每天 700 万次。但幕后,他们悄悄地开始组建帝国的各个组成部分。
随着网络的增长,技术专家和记者预测 Google 的终结;他们永远无法跟上。但他们做到了,战胜了日渐衰败的竞争对手。2001 年,Excite 倒闭,Lycos 关闭,迪士尼暂停了 Infoseek。Google 取代了它们,并不断壮大。直到 2006 年,Google 才最终超越雅虎,成为第一大网站。但到那时,这家公司已经彻底转型。
在 1999 年获得新一轮投资后,Google 搬进了新的总部,并招募了大量新员工。新加入的员工包括 AltaVista 的前工程师和领先的人工智能专家彼得·诺维格。Google 前所未有地专注于技术的进步。更好的服务器。更快的爬虫。更大的索引。Google 内部的工程师发明了一种网络基础设施,直到那时还仅仅是理论上的。
他们用新的东西训练他们的机器,开发新的产品。但无论应用是什么,无论是翻译、电子邮件还是按点击付费广告,它们都基于相同的理念。机器可以增强和重塑人类智慧,而且可以无限扩展。Google 将人工智能的价值主张带入了主流。

2001 年,佩奇和布林聘请了硅谷资深人士埃里克·施密特担任 CEO,他在这个职位上工作了十年。他见证了公司在高速增长和创新的时期取得的成就。Google 第四号员工希瑟·凯恩斯回忆起他上任的头几天。“他在公司里做了一次公开讲话,说:‘我想让你们知道真正的竞争对手是谁。’他说:‘是微软。’所有人都说:‘什么?’
比尔·盖茨后来表示:“在搜索引擎领域,Google 彻底击败了早期创新者,完全碾压了他们。”总有一天,Google 和微软会正面交锋。埃里克·施密特对 Google 的发展方向是正确的,但微软需要数年时间才能意识到 Google 的威胁。在 20 世纪 90 年代后期,他们忙于关注另一家硅谷公司,这家公司新贵席卷了数字世界。微软与网景的战争持续了五年多,吞噬了整个网络。
我认为 PageRank 是互联网档案库发明的,被 Google 窃取了。
我在研究中没有发现这一点,但如果您有任何链接可以让我阅读更多相关信息,我会很乐意查看。
… PageRank 在实践中只是一个愚蠢的想法,但在数学上却很美妙。你从一个简单的想法开始,比如页面的质量等于链接到它的页面的质量之和乘以一个标量。这使你能够找到一个巨大的稀疏矩阵的特征向量。而且由于工作量太大,Google 似乎并没有经常更新它的 PageRank 值。
许多人认为这种分析链接的方法是 Google 发明的。并非如此。如我所说,IBM 的 CLEVER 项目是第一个实现它的人。此外,它并不奏效。它确实有效,但效果并不比其他引擎使用的简单链接和链接文本分析方法好。我知道这一点,因为我们在 Infoseek 实现了自己的版本,并没有看到很大的区别。雅虎在收购 Inktomi 之前对 Google 和 Inktomi 进行了结果对比,得出了相同的结论。
我认为真正让 Google 受到关注的是它的索引大小、速度和动态生成的摘要。这些才是 Google 的优势,直到今天依然如此,而不是 PageRank。现在告诉我们 Gigablast 的情况。
来自:queue.acm.org “与马特·威尔斯对话”
非常棒的阅读体验。非常喜欢这篇网络搜索的杰作,感谢您的写作(和发表)!
关于搜索引擎演变史的精彩介绍。很想阅读后续章节。难道不是彼得·诺维格,而不是彼得·诺文格吗?