您现在所在的位置:

首页 > 网站建设 > 网站建设 > 如何巧妙利用robots

如何巧妙利用robots

来源:SEO技术站   2010-07-29 01:50
我们经常说robots文件,但是它到底是什么呢?robot文件搜索引擎自动访问互联网上的网页并获取网页信息,当搜索引擎来抓取我们这个网站的时候,搜索引擎首先会找到robot文件,看看我们里面是怎么写的,写些了那些命令。然后它根据我们描述的要求对我们的网站进行相对应的处理,该抓取哪里,不改抓取哪里,这里大家就会想,robot是不是就只要这个作用呢?只是定义搜索引擎改访问、不改访问那些目录或页面呢?其实你就只猜对了一半,robot里面还可以写别的信息。如:作者的版权信息,公司的信息,网站程序信息等等很多信息。我想这点大多数的SEOer是没用利用的。robot在一个网站里面起到的很重要的最好。有了这个文件不能说想对我们的网站为所欲为吧,但是可以很方便的对网站的结构信息进行合理化。就想我在我优化的这个www.jiankan13.com一生健康网的robot文件里面加上了我的个人信息,为什么呢?因为在我找工作的时候,别人会问我有没有成功案例,我说有,我打上网址让人家看,这样很难让人家相信,是不是真的是你做的。但是如果打开robot文件一看。里面的信息是我的。这样也算对自己劳动成果的保护吧,接下来我说一下robot文件的格式:
User-agent:      这里是定义搜索引擎的类型
Disallow:    这里是定义禁止搜索引擎收录的地址
Allow:   这里是定义允许搜索引擎收录的地址
我们常用的搜索引擎类型有:
google蜘蛛: googlebot   
百度蜘蛛:baiduspider   
yahoo蜘蛛:slurp   
alexa蜘蛛:ia_archiver   
msn蜘蛛:msnbot   
altavista蜘蛛:scooter   
lycos蜘蛛: lycos_spider_(t-rex)   
alltheweb蜘蛛: fast-webcrawler   
inktomi蜘蛛: slurp
以上是我们常用的搜索引擎类型。下面我们说下标准写法的格式:
User-agent: *     这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/       这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/    这里定义是禁止爬寻require目录下面的目录
Disallow: /require/   这里定义是禁止爬寻require目录下面的目录   
Disallow: /ABC     这里定义是禁止爬寻ABC整个目录 
Disallow: /cgi-bin/*.htm  禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?*    禁止访问网站中所有的动态页面
Disallow: .jpg$   禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html  禁止爬去ab文件夹下面的adc.html所有文件
User-agent: *   这里的*代表的所有的搜索引擎种类,*是一个通配符
Allow: /cgi-bin/  这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp        这里定义是允许爬寻tmp的整个目录
Allow: .htm$        仅允许访问以".htm"为后缀的URL。
Allow: .gif$     允许抓取网页和gif格式图片
网站建设
热点文章
  • 一比多网站:一比多一比多移动平台
  • 一比多咨询热线:13361975067   

    沪公网安备 31011502004088号

  • 增值电信业务经营许可证:沪B2-20070060 网站ICP备案号:沪ICP备07012688号 一比多(EBDoor) 版权所有 Copyright 1998-2018 EBDoor.com All rights reserved.