
鞍山营销网站制作:返回robots.txt文件的含义
作为一个网站建设和优化公司,有必要返回robots.txt文件,让我们来看看这个文件的含义。
Robots.txt是一个纯文本文件,用于声明您不希望蜘蛛访问的站点部分,或指定蜘蛛爬行的部分。不是一项规则,而是一项需要蜘蛛有意识地遵守的习俗的惯例。
当蜘蛛访问某个站点时,它会首先检查该站点是否有robots.txt
如果找到,蜘蛛将根据文件的内容确定爬网的范围。
如果文件不存在,则蜘蛛直接沿着链接爬行。

robots.txt的作用
1.防止搜索引擎抓取私人或重要内容
2,节省服务器资源,从而提高服务质量
3.减少重复并提高网站质量
4,指定站点地图文件的位置
用户代理: *
对于哪个搜索引擎蜘蛛
这里*表示搜索引擎类型,*是通配符
允许
定义为允许蜘蛛抓取部分或文件
允许:/ 鞍山营销网站制作 cgi-bin /
这里的定义是允许访问cgi-bin目录。
允许:/ * .htm $
$指的是匹配行终止符
*指的是匹配任何字符
不允许
定义为防止蜘蛛爬行部分或文件
禁止:/ admin /
这里的定义是禁止抓取管理目录。
不允许:/cgi-bin/*.htm
禁止在/ cgi-bin /目录中对后缀为“.htm”的所有URL进行爬网。
不允许: /**
不要抓鞍山营销网站制作取网站中包含问号“”的所有网址
Sitemap:网址的全名(包括http://部分)
告诉搜索引擎蜘蛛这个页面是站点地图
robots.txt文件主要限制整个站点或目录的蜘蛛访问,而robots元标记主要用于特定页面。