如何巧妙利用robots

来源：SEO技术站 2010-07-29 01:50

我们经常说robots文件，但是它到底是什么呢？robot文件搜索引擎自动访问互联网上的网页并获取网页信息，当搜索引擎来抓取我们这个网站的时候，搜索引擎首先会找到robot文件，看看我们里面是怎么写的，写些了那些命令。然后它根据我们描述的要求对我们的网站进行相对应的处理，该抓取哪里，不改抓取哪里，这里大家就会想，robot是不是就只要这个作用呢？只是定义搜索引擎改访问、不改访问那些目录或页面呢？其实你就只猜对了一半，robot里面还可以写别的信息。如：作者的版权信息，公司的信息，网站程序信息等等很多信息。我想这点大多数的SEOer是没用利用的。robot在一个网站里面起到的很重要的最好。有了这个文件不能说想对我们的网站为所欲为吧，但是可以很方便的对网站的结构信息进行合理化。就想我在我优化的这个www.jiankan13.com一生健康网的robot文件里面加上了我的个人信息，为什么呢？因为在我找工作的时候，别人会问我有没有成功案例，我说有，我打上网址让人家看，这样很难让人家相信，是不是真的是你做的。但是如果打开robot文件一看。里面的信息是我的。这样也算对自己劳动成果的保护吧，接下来我说一下robot文件的格式：
User-agent:      这里是定义搜索引擎的类型
Disallow:    这里是定义禁止搜索引擎收录的地址
Allow:   这里是定义允许搜索引擎收录的地址
我们常用的搜索引擎类型有：
google蜘蛛： googlebot 　　
百度蜘蛛：baiduspider 　　
yahoo蜘蛛：slurp 　　
alexa蜘蛛：ia_archiver 　　
msn蜘蛛：msnbot 　　
altavista蜘蛛：scooter 　　
lycos蜘蛛： lycos_spider_(t-rex) 　　
alltheweb蜘蛛： fast-webcrawler 　　
inktomi蜘蛛： slurp
以上是我们常用的搜索引擎类型。下面我们说下标准写法的格式：
User-agent: * 　　  这里的*代表的所有的搜索引擎种类，*是一个通配符
Disallow: /admin/       这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/  　这里定义是禁止爬寻require目录下面的目录
Disallow: /require/   这里定义是禁止爬寻require目录下面的目录　　
Disallow: /ABC     这里定义是禁止爬寻ABC整个目录　
Disallow: /cgi-bin/*.htm  禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?*    禁止访问网站中所有的动态页面
Disallow: .jpg$   禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html  禁止爬去ab文件夹下面的adc.html所有文件
User-agent: * 　　这里的*代表的所有的搜索引擎种类，*是一个通配符
Allow: /cgi-bin/　　这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp        这里定义是允许爬寻tmp的整个目录
Allow: .htm$        仅允许访问以".htm"为后缀的URL。
Allow: .gif$     允许抓取网页和gif格式图片

网站建设

网站建设

热点文章

您现在所在的位置：

如何巧妙利用robots

相关文章