`
hududanyzd
  • 浏览: 778483 次
文章分类
社区版块
存档分类
最新评论

全面阐述搜索引擎技术、应用及商业模式

 
阅读更多

搜索引擎的背后——支撑这一“简单”的背后,是非常复杂的搜索技术。

人们进一步的问题是:搜索引擎公司到底是什么样的公司,搜索引擎的员工在做什么? 搜索引擎公司的盈利模式是什么,它们的盈利空间究竟有多大?新的搜索引擎公司能像百度、Google一样成功吗?搜索引擎公司相互之间如何竞争?搜索引擎现在发展到了一个什么样的阶段,明天搜索引擎有什么用处……

打开Google或百度主页,键入想要搜索的任何一个词语,不到10秒的时间里,浏览器页面里就哗啦啦给你吐出一大堆搜索结果。“百度一下”某个关键词,一个“搜索”的操作,简单到用户认为这是互联网天生就应该具备的功能。

但是,搜索引擎的背后——支撑这一“简单”的背后,是非常复杂的搜索技术。

众所周知,我们生活在信息大爆炸时代,每天的信息量太大了,足以将所有人湮没。在如此庞杂的新鲜信息与存量信息面前,人们如何找到斯时有用或急需的信息,那,请搜索吧。搜索引擎如此应运而生。

那么,什么是搜索引擎?曾有人形象地比喻说:“搜索引擎就像一个巨大的吸尘器,能将互联网海洋的任何东西都吸上来,不管它在多深的海底。”这句解释尽管并不准确,但比较形象,我们来看看真实的搜索引擎工作是怎样一个流程吧。

蜘蛛程序

实际上,搜索引擎捕捉网页并不是“吸”,而是“抓”——抓取。还是继续以海洋作为互联网的形象代表吧。这个海洋,是以不计其数的网页组成的,而网页间,靠一个个链接相连,形成一个宽广无垠的互联“网”。

搜索引擎“抓取”网页的工具,人们叫它蜘蛛程序(SpiderPro-gram),它沿着网页的链接,从一个网页爬到另一个网页,并有选择地将一个个网页抓取回来。

我们知道,每一个互联网页面,都是用html语言写成的。“蜘蛛程序”访问的并不是我们日常看到的页面,而是后台的html源码,如果“蜘蛛”认为这个页面有用,它就会将关于这个页面的html源码复制下来,发送回搜索引擎的服务器进行存储,然后继续它的旅程,去访问下一个页面。

从理论上来说,从一个页面出发,根据该页面的链接信息,这个蜘蛛可以访遍互联网上所有的网页——就好像你认识一个人,你可以根据这个人认识的人,和这个人认识的人所认识的人,一直和这个世界上所有的人建立某种关系。“蜘蛛程序”的工作原理也是这样的。

不同的搜索引擎,它们所拥有的“蜘蛛程序”不一样,蜘蛛的能力大小也不一样。比如,每天能抓到网页的数量是一个指标,避免抓重复网页的能力是一个指标,如何抓到最新网页的能力也是一个指标。因此,“蜘蛛”能力的大小,首先就会导致不同搜索引擎之间的差异。

建立索引和排序

蜘蛛程序固然重要,但这还不是各搜索引擎的核心差异,其核心差异还是在于搜索引擎对抓取回来的页面所进行索引和设定排序规则。

抓回来的页面源程序放在搜索引擎庞大的服务器群中,就好像是成千上万本书散落在一个巨大的图书馆中,如果不对这些书进行索引和排序,要找到一本书就跟大海捞针的难度是一样的。索引就是要对每个页面中的每个字词都进行分析、整理和提炼,将每个页面分门别类地放在各个索引库中。

显然,如果依靠人工肯定不能对每个页面的字词都进行详细的分析,这个过程也是通过程序来完成的。这中间分词技术就很关键,比如,分词技术直接影响到搜索引擎会不会根据“任务”这样一个词,来建立包含“李主任务必来开会”字样的网页索引(早期的搜索引擎,包括Google在内,就曾经出现过键入“任务”一词,搜出包含“李主任务必来开会”网页的事情)。

索引之后就是排序,即确定用户向搜索引擎提交了一个搜索请求后,搜索引擎应该向用户返回搜索结果的秩序。显然,用户最想要的信息应该排在搜索结果的最前列,但究竟什么样的信息是用户最想要的信息?这个问题就仁者见仁,智者见智了。

在搜索引擎领域,著名的排序规则是百度创始人李彦宏的“超链分析”(李在美国申请了相关技术的专利)。超链分析认为一个网页的重要性可由其他网页指向该网页的链接数目决定,这有点像要判断一个人是否重要,就看这个世界有多少其他人认识他。与超链分析排序规则类似,Google也采用根据网页被链接指向多少的规则来进行排序,创造了自己独特的PageRank技术。

可以说,正是由于掌握了网页索引和排序规则方面的核心技术,才造就了目前Google和百度在各自市场上各领风骚的局面。

将互联网有用的网页抓取回来,并根据排序规则建立了网页索引,用户在使用搜索引擎进行检索时,就可以以极快的速度找到相关性高的网页了。然而道高一尺,魔高一丈,如果单纯依靠静态的蜘蛛程序抓取规则和排序规则,一些恶意的网站就可以利用这些规则,来进行所谓的网站优化。《南方周末》曾经在《搜索引擎与网站的战争》一文中详细介绍了这方面的情况。

从上面的介绍可以看出,搜索引擎绝不是仅仅执行简单的“吸尘器”功能,它首先需要功能强大的“蜘蛛”来协助其收集互联网规模日增、每天变化的各种网页信息,同时需要极大的投入,购买服务器来将这些信息保存起来。接着,搜索引擎要对所有收集来的网页建立索引和排序,并时刻警惕外界的各种行为。

通过这样的搜索引擎工作流,我们也可以看到运作一个好的搜索引擎所需要的资源:“蜘蛛程序”,“分词技术”、“排序规则”和“反程序”,这些需要大量的程序员不停工作,来提升软件的效率和功用;海量网页信息和索引信息的存储,需要企业投入大量财力,来部署服务器群。目前,Google在全球投入搜索引擎技术开发的技术人员上千人,研究全球100多种语言的搜索技术,而百度目前700多的员工规模中,接近一半以上的技术人员,研究单一的中文搜索技术。

由于搜索引擎产业的复杂性,在资源投入的基础上,“专注”也是一个很重要的因素。“我们将一如既往,专注在中文搜索引擎领域的研发和推广上。”已经成为企业家明星的百度公司总裁李彦宏曾经公开表示。

了解了搜索引擎的技术内核,我们不难理解为什么“全、新、快、准”四个字会成为衡量搜索引擎好坏的标准。“全”是指索引库中搜集的网页要全,根据最新的统计数字,在差不多20亿中文网页中,百度索引库中搜集了8亿,而Google的数字是5亿;“新”就是要保证一些最新的网页能被收录在索引库中,目前百度的索引库每月会完整更新一遍,但每天会多次更新,每次更新一部分最新网页;“快” 就是指查询提交后搜索引擎返还结果的速度,“准”指的是搜索结果的相关性和准确度。

技术层面上了解了搜索引擎之后,人们才能更清楚地进一步了解搜索引擎如何盈利、为什么市场对搜索引擎公司如此青睐。

分享到:
评论

相关推荐

    搜索引擎的技术与原理

    引擎实现的具体细节,进而详细讨论了大规模分布式搜索引擎系统的设计要点及 其关键技术;最后面向主题和个性化的Web 信息服务,阐述了中文网页自动分类 等技术及其应用。本书层次分明,由浅入深;既有深入的理论分析...

    搜索引擎—原理 技术 与实现

    本书比较系统地介绍了互联网搜索引擎的...最后面向主题和个性化的Web信息服务,阐述了中文网页自动分类等技术及其应用。本书层次分明,由浅入深;既有深入的理论分析,也有大量的实验数据,具有学习和实用双重意义。

    搜索引擎--原理、技术与系统

    本书比较系统地介绍了互联网搜索引擎的...最后面向主题和个性化的Web信息服务,阐述了中文网页自动分类等技术及其应用。本书层次分明,由浅入深;既有深入的理论分析,也有大量的实验数据,具有学习和实用双重意义。

    搜索引擎-原理、技术与系统

    PDF格式 大小:2.9M 本书比较系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统...最后面向主题和个性化的 Web信息服务,阐述了中文网页自动分类等技术及其应用。 天网搜索 的几个元老们写的,务实而且易懂。

    搜索引擎—_原理、技术与系统.pdf

    本书比较系统地介绍了互联网搜索引擎的...最后面向主题和个性化的Web信息服务,阐述了中文网页自动分类等技术及其应用。本书层次分明,由浅入深;既有深入的理论分析,也有大量的实验数据,具有学习和实用双重意义。

    搜索引擎——原理、技术与系统

    引擎实现的具体细节,进而详细讨论了大规模分布式搜索引擎系统的设计要点及 其关键技术;最后面向主题和个性化的Web信息服务,阐述了中文网页自动分类 等技术及其应用。本书层次分明,由浅入深;既有深入的理论分析...

    基于ASP搜索引擎系统++论文

    在网络信息资源极大丰富的今天, 如果人们想要准确地、迅速地查找自己所需的信息, 就必须借助搜索引擎技术。作为一种重要的信息资源组织与控制工具,搜索引擎已成为人们上网必不可少的工具,并逐渐改变着人们的生活。 ...

    达观数据阐述推荐系统和搜索引擎的关系

    从信息获取的角度来看,搜索和推荐是用户获取信息的两种主要...本文作者有幸同时具有搜索引擎和推荐系统一线的技术产品开发经验,结合自己的实践经验来为大家阐述两者之间的关系、分享自己的体会(达观数据陈运文博士)

    基于百度的全文搜索引擎

    本资源为一份详尽的全文搜索引擎相关内容的文档,全面介绍了全文搜索引擎的含义、工作流程、技术原理、特点与优势以及多个应用场景。文档从基本概念入手,详细阐述了全文搜索引擎如何通过爬取互联网信息、建立网页...

    搜索引擎-原理、技术与系统(带目录版)

    最后面向主题和个性化的Web信息服务,阐述了中文网页自动分类等技术及其应用。本书层次分明,由浅入深;既有深入的理论分析,也有大量的实验数据,具有学习和实用双重意义。 本书可作为高等院校计算机科学与技术、...

    搜索引擎的设计与实现

    网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。建立搜索引擎就是解决这个问题...本人在介绍搜索引擎的章节中除了详细的阐述技术核心外还结合了新闻搜索引擎的实现代码来说明,图文并茂、易于理解。

    SEO搜索引擎原理技术与系统以及搜索引擎优化基础

    最后面向主题和个性化的Web信息服务,阐述了中文网页自动分类等技术及其应用。本书层次分明,由浅入深;既有深入的理论分析,也有大量的实验数据,具有学习和实用双重意义。  本书可作为高等院校计算机科学与技术...

    搜索引擎原理技术与系统

    本书比较系统地介绍了互联网搜索引擎的...最后面向主题和个性化的Web信息服务,阐述了中文网页自动分类等技术及其应用。本书层次分明,由浅入深;既有深入的理论分析,也有大量的实验数据,具有学习和实用双重意义。

    搜索引擎零距离——基于Ruby+Java搜索引擎原理与实现(前三章)

    本书涉及网络数据挖掘、搜索引擎原理、编译原理、数据库原理、正则表达式、软件工程、设计模式、Ruby语言、HTTP协议等计算机科学与技术的知识,适合搜索引擎开发人员作为参考,也适合有一定计算机基础的读者阅读,以...

    搜索引擎——原理、技术与系统(附作者课堂录音及讲稿)

    网页净化与消重第八章 高性能检索子系统第九章 用户行为的特征及缓存的应用第十章 相关排序与系统质量评估 下篇 面向主题和个性化的WEB信息服务第十一章 中文网页自动分类技术第十二章 搜索引擎个性化查询服务第十三...

    搜索引擎-原理,技术与系统

    最后面向主题和个性化的Web信息服务,阐述了中文网页自动分类等技术及其应用。本书层次分明,由浅入深;既有深入的理论分析,也有大量的实验数据,具有学习和实用双重意义。 本书可作为高等院校计算机科学与技术、...

    搜索引擎—_原理、技术与系统

    引擎实现的具体细节,进而详细讨论了大规模分布式搜索引擎系统的设计要点及 其关键技术;最后面向主题和个性化的Web信息服务,阐述了中文网页自动分类 等技术及其应用。本书层次分明,由浅入深;既有深入的理论分析...

    基于ASP的搜索引擎的开发

    随着因特网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息,就像大海捞针一样,搜索引擎技术恰好解决了这一难题。目前,搜索引擎系统可以分类三大类,分别是:目录式搜索引擎:以人工方式或半自动方式搜集...

Global site tag (gtag.js) - Google Analytics