<tbody id="yxj8c"></tbody>

  • <em id="yxj8c"></em>

    欢迎访问江西5A精品电脑学校官方网站
    网址:http://www.videoonfacebook.com
    南昌seo培训-百度蜘蛛爬行策略

     
    南昌seo培训-百度蜘蛛爬行策略
    1、              蜘蛛
     
    蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓去某些文件或目录,蜘蛛将遵守协议,不抓去被禁止的网址。
    和浏览器一样,搜索引擎也有表明自己身份的用户代理名称,站长可以在日志文件中看到搜索引擎的特定用户代理,从而辨识搜索引擎蜘蛛。
     
    Baiduspider+(+http://www.baidu.com/search/spider.html)   百度蜘蛛
    Mozilla/5.0(Windous;U;Windous NT5 1:zh-CN;)Firefox/1.5.0.11;   360蜘蛛
    Mozilla/5.0 (compatible:Googlebot/2.1;+http://www.google.com/bot.html)  谷歌蜘蛛
    Mozilla/5.0 (compatible;bingobot/5.0;+http://www.bing.com/bingbot.htm)  微软 bing蜘蛛
    Sogou+web+robot+(+http://www.sogou.com/doce/help/webmasters.htm#07)  搜狗蜘蛛
    Sosospider+(+http://help.soso.com/webspider.htm)       搜搜蜘蛛
    Mozilla/5.0(compatible:YodaoBot/1.0;http://www.youdao.com/help/webmaster/spider/;) 有道蜘蛛
     
    2.跟踪链接
     
    整个互联网是由相互链接的网站及页面组成的。从理论上说,蜘蛛从任何一个页面出发,顺着链接都可以爬行到网上的所有页面。当然,由于网站及页面链接结构异常复杂,蜘蛛需要采取一定的爬行车略才能遍历所有页面。
     
    最简单的爬行遍历车略分为两种,一种是深度优先,另一种是广度优先。
     
    所谓深度有限,指的是蜘蛛沿着发现的链接一直向钱爬行,知道前面再也没有其他链接,然后返回到第一个页面,沿着一个链接再一直爬行。如图
     
    光斗优先是指蜘蛛在一个页面上发现多个链接时,不是顺着一个链接一直向前,而是把页面上所有第一层链接都爬一遍,然后再沿着第二层页面上发现的链接爬向第三层页面。如图
     
    3.吸引蜘蛛
     
    虽然理论上蜘蛛能爬行和抓去所有页面,但实际上他很懒,他不能也不会这么做。
     
    页面重要度影响因素:
     
    网站和页面权重。质量高、资格老的网站被认为权重比较高,这种网站上的页面被爬行的深度也会更高,所以会有更多内页被收录
     
    页面更新度。多次抓去后蜘蛛会对页面更新频率有所了解,不经常更新的页面,蜘蛛也没有必要经常抓去。如果页面经常更新,蜘蛛就会更加频繁的访问这种页面,页面上出现新的链接,也自然会被蜘蛛更快的跟踪,抓取新页面。
     
    导入链接。要被蜘蛛抓取,就必须有导入链接进入页面,否则蜘蛛根本没有机会知道页面的存在。高质量的导入链接也经常是页面上的导出链接被爬行深度增加。
     
    与首页点击距离。一般来说,网站上权重最高的是首页,大部分外链是指向首页的,蜘蛛访问最频繁的也是首页。与首页点击距离越近,权重越高,爬行的机会也越大。
     
    URL结构
     
    4.地址库
     
    为了避免重复爬行和抓去网址,蜘蛛会简历一个地址库,记录被抓取的页面。蜘蛛发现链接不是马上就去访问,而是将URL存入地址库,然后统一安排抓去。
    地址库中的url来源:
     
    人工录入的种子网站。
    蜘蛛抓去页面后,从html中解析出新的url,与地址库中的数据库对比,如果是地址库中没有的网址,就存入待访问地址库。
    站长通过搜索引擎网页提交表格提交进来的网址。
    站长通过xml网站地图,站长平台提交的网址。
     
    5.爬行时的复制内容检测
     
    检测并删除复制内容通常是在预处理过程中进行的,但现在的蜘蛛在爬行和抓去文件时也进行一定程度的复制内容检测。遇到权重很低的网站上大量的转载抄袭内容时,很可能不再继续爬行。这也是站长在日志里发现了蜘蛛,但是页面却没有真正被收录过的原因之一。

    相关文章:

    南昌seo培训-百度如何应对优化周期

    南昌天猫运营培训—双十一如何做好直通车推广——爆发期

    网络营销培训--网站长期没排名?200指数关键词的SEO诊断教程

    南昌网络营销培训-从收录到排名网站经历过的风风雨雨

    南昌seo培训-百度蜘蛛爬行策略

    南昌网络营销培训-互联网推广要先从了解用户开始

    江西5A精品电脑培训学校 版权所有 

    彭家桥校区:北京东路彭家桥地铁站A出口进南昌工程学院大学科技园 B座5楼 联系电话:0791-88157848 18942201255 赖老师
    乘车路线:坐到彭家桥下车,途经彭家桥公交车:7路 207路 220路 215路 216路 308路 231路 801路 等

    瑶湖校区区:紫阳大道99-1翰园小区4栋2单元201 联系电话:0791-87935745 186791638975 邱老师(地铁坐到奥体中心c出口下)

    关键词:南昌电脑培训,南昌电脑培训学校,南昌平面设计培训,南昌室内设计培训,南昌网页设计培训,南昌美工培训,南昌淘宝培训,南昌网络营销培训

    澳门论坛精选资料