友情提示:如果本网页打开太慢或显示不完整,请尝试鼠标右键“刷新”本网页!阅读过程发现任何错误请告诉我们,谢谢!! 报告错误
热门书库 返回本书目录 我的书架 我的书签 TXT全本下载 进入书吧 加入书签

搜索引擎优化魔法书-第23章

按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!




    目前,主流搜索引擎都建议网站管理员通过这种方式来辨别真实的机器人身份:通过 

DNS 反向查询找出搜索引擎机器人IP 地址对应的主机名称;用主机名查找IP 地址以确认该 

主机名与IP 地址匹配。  

    首先,使用DNS 反向查询(Reverse DNS Lookup),找出机器人IP 地址对应的主机名 

称。主流搜索引擎的主机名称通常情况下应是这样的:  



     Google    : 主 机 名 称 应 包 含 于             googlebot 域 名 中 , 如 : 

        crawl…66…249…66…1。googlebot;  

     MSN      : 主 机 名 称 应 包 含 于             search。live 域 名 中 , 如 : 

        livebot…207…46…98…149。search。live; 

     Yahoo:主机名称应包含于inktomisearch 域名中,如:ab1164。inktomisearch。  



    最后,做一次 DNS 查询,用主机名查找IP 地址(Forward DNS Lookup ),以确认该主 

机名与IP 地址匹配。由此证明该机器人是合法的。  

    现在,如果发现一个机器人将自己伪装成合法搜索引擎漫游器,你就可以通过服务器上 

的设置来阻止这个非法机器人。  



                           第二节 超链分析  



    最近几年,许多研究者发现,WWW                上超链结构是个非常丰富和重要的资源,如果能 



                                                                       第47 页 


… Page 56…

搜索引擎优化魔法书 SEO Magic Book  浩维互动免费电子书 timev 



够充分利用的话,可以极大地提高检索结果的质量。超链分析技术,是新一代搜索引擎的关 

键技术。   



一、基本原理   



    超链分析的基本原理是:在某次搜索的所有结果中,被其他网页用超链指向得越多的网 

页,其价值就越高,就越应该在结果排序中排到前面。   

    超链分析是一种引用投票机制,对于静态网页或者网站主页,它具有一定的合理性,因 

为这样的网页容易根据其在互联网上受到的评价产生不同的超链指向量,超链分析的结果可 

以反映网页的重要程度,从而给用户提供更重要、更有价值的搜索结果。   

    搜索引擎,并不能真正理解网页上的内容,它只能机械地匹配网页上的文字。它收集了 

互联网上几千万到几十亿个网页并对网页中的每一个文字(即关键词)进行索引,建立索引 

数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词 

的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索 

关键词的相关度高低,依次排列。  

    搜索引擎在查询时主要根据一个站点的内容与查询词的关联程度进行排序。对于一个站 

点的内容搜索引擎则是根据标题、关键词、描述、页面开始部分的内容以及这些内容本身之 

间的关联程度以及一个站点在整个网络上的关联程度来确定的。  

    使用超链分析技术,除要分析索引网页本身的文字,还要分析索引所有指向该网页的链 

接的 URL、AnchorText,甚至链接周围的文字。所以,有时候,即使某个网页 A  中并没有 

某个词,比如“软件”,但如果有别的网页B 用链接“软件”指向这个网页A,那么用户搜 

索“软件”时也能找到网页A 。而且,如果有越多网页(C、D、E、F……)用名为“软件” 

的链接指向这个网页 A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那 

么网页A 在用户搜索“超链分析”时也会被认为相关度越高,排序也会越靠前。  



二、工作步骤  



1、从互联网上抓取网页  



    专门用于检索信息的Robot 程序像蜘蛛一样在网络间爬来爬去,利用能够从互联网上自 

动收集网页的 Spider 系统程序, 自动访问互联网,并沿着任何网页中的所有 URL  爬到其 

它网页,重复这过程,并把爬过的所有网页收集回来。随着互联网的迅速发展,检索所有新 

出现的网页变得越来越困难。因此,在Wan…derer 基础上,一些编程者将传统的 Spider 程序 

工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从一个 

网站开始,跟踪所有网页上的所有链接,就有可能检索整个互联网。   



2、建立索引数据库  



    由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在 

URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页 

的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字 

中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。   



                                                                      第48 页 


… Page 57…

搜索引擎优化魔法书 SEO Magic Book  浩维互动免费电子书 timev 



3、索引数据库中搜索排序  



    当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所 

有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关 

度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页 

面内容摘要等内容组织起来返回给用户。  



三、搜索效果  



    搜索引擎 Spider 一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、 

几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反 

映出网页文字的更新情况,增加新的网页信息,去除死链接,并根据网页文字和链接关系的 

变化重新排序。这样,网页的具体文字变化情况就会反映到用户查询的结果中。   

    互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排 

序算法也各不相同。大型搜索引擎的数据库储存了互联网上几千万至几十亿的网页索引,数 

据量达到几千 G 甚至几万G。但即使最大的搜索引擎建立超过20 亿网页的索引数据库,也 

占不到互联网上普通网页的30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。 

人们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的网页。而互联网上有 

更大量的网页,是搜索引擎无法抓取索引的,也是无法用搜索引擎搜索到的。   

    使用超链分析的搜索引擎未能收录的网页有:Spider 未能正确处理的网页性质及文件类 

型(如Flash、script、JS,某些动态网页及Frame、数据库);没有主动登录搜索引擎而且没 

有指向链接的孤岛网页;Spider 访问时因为某些原因正好是死链接的网页;被认为是劣质网 

页而不抓;因为色情、反动、spam  等问题而不抓的非法网页;需要输入用户名、密码方可 

打开的网页;网站用robots 协议拒绝搜索引擎抓取的网页;搜索引擎还未来得及抓取的新网 

页;go…pher、newsgroups、Telnet、np、wais 等非http 信息的网页。  

    任何地址中带“?”和“&”号(及其他类似符号)的网页都会被“蜘蛛”程序挡在门外。 

这些网页通常由 CGL、PHP、ASP  等程序产生,技术上较先进,但不适合搜索引擎的“蜘 

蛛”程序。虽然目前有的大型搜索引擎(如 Google)已具备检索动态网页的能力,但相当 

一部分引擎还是不支持它的。而且即使是能够索引动态网页的 Google,也在多个场合中明 

确表示不保证检索全部的动态网页。  



四、超链分析技术的应用   



    超链分析技术已为世界各大搜索引擎普遍采用,在我国使用该项技术的搜索引擎有:  

    百度(baidu )搜索引擎使用了高性能的“网络蜘蛛”程序自动在互联网 

中搜索信息,可定制、高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的 

互联网信息。百度在中文互联网拥有天然优势,支持搜索 1。3 亿个中文网页,是现在最大的 

中文搜索引擎。并且,百度每天都在增加几十万新网页,对重要中文网页实现每天更新。百 

度除了用超链分析排名外还开展竞价排名。具有网页快照,相关搜索、中文人名识别、简繁 

体中文自动转换、网页预览等功能,还可以进行专业的MP3 搜索、Flash 搜索、新闻搜索、 

图片搜索、信息快递搜索。百度总裁李彦宏就是超链分析专利的唯一持有人。   

    引入人工智能的慧聪(huicong )行业搜索引擎对于商务人士而言尤为有 

用。如果在Google 上输入“化工”,搜索出相关网页有 138 万个,里面包罗万象,有用的、 



                                                                       第49 页 


… Page 58…

搜索引擎优化魔法书 SEO Magic Book  浩维互动免费电子书 timev 



无用的混杂在一起,如果用户想找的网站正好排名在上千、上万个以后,无疑面对的是一个 

茫茫网海,找到这个信息十分困难。而在慧聪行业搜索引擎,弹出的首先是一个分类页面, 

列有有机化工、石油化工、精细化工、印
返回目录 上一页 下一页 回到顶部 0 0
未阅读完?加入书签已便下次继续阅读!
温馨提示: 温看小说的同时发表评论,说出自己的看法和其它小伙伴们分享也不错哦!发表书评还可以获得积分和经验奖励,认真写原创书评 被采纳为精评可以获得大量金币、积分和经验奖励哦!