搜索引擎是如何工作的?

我经常会遇到一些不知道 搜索引擎如何收集信息的人。他们知道什么是搜索引擎,而且也理解得到搜索引擎索引的重要性,尽管有些人知道一些,但当你开始谈论诸如爬行程序之类的内容时,他们就开始卡壳了。

不要再出现卡壳这样的尴尬场面了。本文旨在帮你揭示一些你对搜索引擎还不是很肯定的东西。毕竟,如果你想通过得到搜索引擎的收录而受益,你还是了解一下搜索引擎如何工作为好。

合三为一

基于爬行程序的搜索引擎是由三部分组成的:爬行程序、索引和软件。每一部分都具有自己的功能并且三个部分一起产生了我们在搜索引擎结果页面(SERPs)上所看到的内容。
饥饿的爬行程序

另一个广为人知的名字是网络爬行程序或者机器人,搜索引擎爬行程序就是能阅读网页和跟踪站点内到其它网页任何链接的一个自动程序。我们经常将一个称为被“爬行”或“索引”。在网络上有三种非常饥饿、非常活跃的爬行程序。它们的名字为Googlebot(Google)、Slurp( Yahoo!)和MSNBot(MSN 搜索)。

爬行程序会从先前添加到它们索引(数据库)中的系列网页URLs开始网络之旅。在它们访问这些网页时,它们爬行编码和副本,它将在网络上找到的新网页(链接)也添加到它的索引之中。对于这个过程,我们可以将爬行程序称为是正在建立索引,稍后将进一步加以讨论。

爬行程序会根据一个固定的周期回访其目录中的站点,寻找任何的更新。至于爬行程序回访的频率,这要由搜索引擎确定。网站拥有者通过采用一个名为robot.txt的文件确实能控制爬行程序访问这个站点的频率。搜索引擎在进一步爬行一个网站之前首先查看这个文件。

正在成长的索引

索引就像是一个包含爬行程序所找到网站每一个网页和文件副本的巨大目录或者详细目录。如果某一个网页发生了变化,则会使用新的信息来更新这个目录。为了能使一个数量的概念给你描述这些索引的大小,Google最新公布的数字是80亿个网页。

有时候需要一定的时间才能让爬行程序找到新的网页和更改并添加到自己的索引中。由此,一个网页可能已被“爬行”但尚未“索引”。知道一个网页被索引后——添加到索引中——此时在搜索引擎中是搜索不到这些被爬行过的网页的。

搜索引擎的工作模式

每天,搜索引擎都通过一个设计好的软件来详细审核其索引中的数十亿的网页索引,并找出哪些与搜索查询最为匹配以及将其按最为相关的顺序进行 排名。

搜索引擎面对的是数百亿需要排序的网页,它如何决定相关性呢?每一个搜索引擎都已形成了一套规则和数学公式,我们将其称之为算法,用这种算法来决定网页的排名。

至于每一家搜索引擎的算法是如何工作的这是一个秘密,但常常用来改进一个网站的排名性能的一般原则大家还是知道的,我们将其称之为搜索引擎优化。

搜索引擎不时简单地采用网页副本将相关的网页根据一个垂直的主题进行分组。如果我们取出一个与电影行业相关的网页,这些主题或者组可能是娱乐、电影娱乐、电影明星娱乐等等。每一个主题都有描述这个组所包含网页的公共字和短语。有些网页可能不单单属于一个组,例如:与电影利润相关的一个网页可能既属于金融组又属于娱乐组。

SERP(或搜索引擎结果页)

将此算法应用于索引的站点后,根据所执行的搜索,搜索引擎会给出一些最相关的搜索结果。

我们来简化一个复杂的过程,当一位用户输入一个搜索查询时,搜索引擎根据这个网页对其认为相关的索引进行分析和检索。如果它具有一个相关网页的候选名单,它会依据另外的算法因素对这些列表进行进一步计算,以便决定以何种顺序将其展示给用户。这些因素或许是用户的位置,当然了,甚至也可能是用户的搜索历史记录。

每个搜索引擎所使用的算法是不同的,这就是为什么对于相同的查询,每个搜索引擎所搜索到的结果不尽相同的原因。每一个搜索引擎都有自己的小生境,因此,对于一个用户常常同时使用多个搜索引擎来搜索一个内容并不少见。这进一步说明了网站拥有者将其网站在所有搜索引擎上获得索引并得到较好的排名是非常重要的。

结论

搜索引擎的目标是如何适合用户的口味。它们因此想在第一时间给用户提供合适的、相关的、信息量大的站点来满足他们。

附Google 查询的全过程
Google 查询的全过程通常不超过半秒时间,但在这短短的时间内需要完成多个步骤,然后才能将搜索结果交付给搜索信息的用户。

原文地址:http://www.21cnbj.com/industrynews/searchengine2005/2005-05-30-3569.html
原图出处:http://www.google.com/intl/zh-CN/corporate/tech.html

搜索引擎三大主要类别简介

搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。

·全文搜索引擎

全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。

从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。

·目录索引

目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有Open Directory Project(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。

·元搜索引擎 (META Search Engine)

元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。

除上述三大类引擎外,还有以下几种非主流形式:

1、集合式搜索引擎:如HotBot在2002年底推出的引擎。该引擎类似META搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎当中选择,因此叫它“集合式”搜索引擎更确切些。

2、门户搜索引擎:如AOL Search、MSN Search等虽然提供搜索服务,但自身即没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。

3、免费链接列表(Free For All Links,简称FFA):这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起Yahoo等目录索引来要小得多。

由于上述网站都为用户提供搜索查询服务,为方便起见,我们通常将其统称为搜索引擎。

原文地址:http://news.ccidnet.com/pub/article/c1032_a233445_p1.html