如何巧妙利用robots
来源:SEO技术站
2010-07-29 01:50
我们经常说robots文件,但是它到底是什么呢?robot文件搜索引擎自动访问互联网上的网页并获取网页信息,当搜索引擎来抓取我们这个网站的时候,搜索引擎首先会找到robot文件,看看我们里面是怎么写的,写些了那些命令。然后它根据我们描述的要求对我们的网站进行相对应的处理,该抓取哪里,不改抓取哪里,这里大家就会想,robot是不是就只要这个作用呢?只是定义搜索引擎改访问、不改访问那些目录或页面呢?其实你就只猜对了一半,robot里面还可以写别的信息。如:作者的版权信息,公司的信息,网站程序信息等等很多信息。我想这点大多数的SEOer是没用利用的。robot在一个网站里面起到的很重要的最好。有了这个文件不能说想对我们的网站为所欲为吧,但是可以很方便的对网站的结构信息进行合理化。就想我在我优化的这个www.jiankan13.com一生健康网的robot文件里面加上了我的个人信息,为什么呢?因为在我找工作的时候,别人会问我有没有成功案例,我说有,我打上网址让人家看,这样很难让人家相信,是不是真的是你做的。但是如果打开robot文件一看。里面的信息是我的。这样也算对自己劳动成果的保护吧,接下来我说一下robot文件的格式:
User-agent: 这里是定义搜索引擎的类型
Disallow: 这里是定义禁止搜索引擎收录的地址
Allow: 这里是定义允许搜索引擎收录的地址
我们常用的搜索引擎类型有:
google蜘蛛: googlebot
百度蜘蛛:baiduspider
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
msn蜘蛛:msnbot
altavista蜘蛛:scooter
lycos蜘蛛: lycos_spider_(t-rex)
alltheweb蜘蛛: fast-webcrawler
inktomi蜘蛛: slurp
以上是我们常用的搜索引擎类型。下面我们说下标准写法的格式:
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC 这里定义是禁止爬寻ABC整个目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有的动态页面
Disallow: .jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html所有文件
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片