荆门高端设计公司:关于robots.txt文件

发布时间2020-03-01    阅读:355    作者:荆门网站设计开发公司

那些创建网站的人使用robots.txt文件告诉网络机器人,比如搜索引擎机器人如何在他们的网站上爬行特定的页面。REP是一套规则,它规定机器人如何爬行网络并处理它们遇到的内容。txt文件是该文件的一部分,并指示某些Web爬虫是否能够通过允许(或不允许)特定用户代理的行为来爬行网站的各个部分。

了解robots.txt很重要,因为它确实可以帮助或真正伤害您的网站。继续阅读,得到一个好的概念,什么是需要做的,以充分利用你的网站。


ROBOTS.TXT文件重要吗?

如果您没有正确地使用robots.txt,它确实会损害您的排名,因为文件控制搜索引擎蜘蛛或爬虫如何查看和与您的网页交互。机器人读取robots.txt文件(如果有),这会告诉他们是否应该抓取您的站点,如果应该的话,在多大程度和什么时候。

谷歌机器人首先看到的是一个网站的robots.txt。它这样做是为了看看它是否有爬行的许可。您的robots.txt文件是一组针对机器人的指令,如果您知道自己在做什么,您可以让它说出您想说的任何东西。您甚至可以设置一个延迟,以便机器人能够爬行,但是在robots.txt文件中指定的时间段之后。

如何判断是否有robots.txt文件

有一些方法可以判断是否已经有robots.txt文件。最常见的方法是输入根域URL,然后在其末尾添加/robots.txt。例如,如果您的网站是www.fan softhegrimreaper.com,输入www.fan softhegrimreaper.com/robots.txt。如果没有.txt页面,那么当前没有启动和运行的robots.txt文件。

这可以是好的,也可以是坏的,这取决于你想对你的网站做什么。如果您有robots.txt瓷砖,您必须确保它不会因为阻止不想阻止的内容而损害您的排名。

创建robots.txt文件的原因

虽然您不一定需要robots.txt文件,但在某些情况下,启动并运行一个文件是有益的。如果您想要阻止某些搜索引擎中的内容,或者希望微调来自知名机器人的访问,那么必须让robots.txt正常运行。或者,也许你的网站是实时的,但你仍然在编辑它,所以你还不想在搜索引擎中出现。

您可以将robots.txt配置为遵守所有条件。大多数网站管理员具有创建、自定义和成功利用robots.txt文件的能力和权限。

当没有robots.txt文件时

如果您的网站相对简单,没有错误,并且不包含任何您希望从搜索引擎中阻止的文件,那么您就没有必要拥有robots.txt文件。即使您没有robots.txt文件,搜索引擎机器人仍然能够完全访问您的站点,因此没有理由担心它们将无法找到您。实际上,如果您有robots.txt文件,他们可能会发现您要容易得多,特别是在配置不当或包含错误的情况下。

如果你想让任何人和每个人,越多,越开心,找到你的网站,看到它上的一切,你最好的选择是不要有robots.txt文件。这没有什么不对的,而且是一种普遍的做法。不要觉得你错过了一些搜索引擎排名的关键工具。事实上,如果没有robots.txt文件,您可能会享受到比其他文件更高的排名。



如何创建ROBOTS.TXT文件

如果您可以复制和粘贴,那么您也可以创建robots.txt文件。它非常简单,不需要编程技巧。Microsoft Word或记事本就足够了。没有必要使用代码编辑器。那太过分了。有无数的站点提供了如何设置robots.txt文件的说明。

只需找到一个有您所需内容的示例,然后将文本复制并粘贴到您自己的文件中即可。不要害怕,因为它是一样容易检查和查看您的文件是正确的设置,因为它是要使它或修复它。有许多在线工具可以免费帮助你。

robots.txt文件应该怎么说?

robots.txt文件主要做三件事:它将允许、它将不允许,或者它将部分允许您的站点被爬行。如果你希望你的整个网站被抓取,你有三个选择。首先,您不能有robots.txt文件,这意味着站点上根本不存在robots.txt文件。当机器人开始爬行时,它会立即查找robots.txt文件。如果它找不到一个,那么它将访问您所有页面上的所有内容,因为没有什么不允许它访问。

您还可以创建一个空白或空的robots.txt文件。这将与没有目的相同。当机器人来参观时,它将没有什么可读的,它会再次爬过你所有的材料。如果不希望任何内容被机器人爬行,那么必须设置一个完全不允许的robots.txt文件。但是要小心,因为这将意味着Google和所有其他搜索引擎不会索引或显示您的站点。不建议使用此方法。

为什么要使用robots.txt文件

如果你经历了创建一个网站的时间、麻烦和花费,你很可能希望人们看到它,如果他们还不知道它的存在,就能找到它。爬虫是你在搜索引擎排名中获得更高排名的最佳选择。有时,你可能不想让你的网站到处爬行,至少现在是这样。

这方面的一个例子是,如果您有一个页面,仍然是一个粗略的草稿。或者,爬行延迟可能会派上用场,使您的服务器不会因为过多的流量而超载。你也可能不希望你的内部搜索引擎页面出现在任何其他地方,因为它将失去上下文的意义。


如何测试ROBOTS.TXT文件

如果您已经设置了一个不允许或部分不允许robots.txt文件,那么检查并确保其工作正常是一个好主意。有几种免费工具可用于此。他们可以告诉你那些对谷歌很重要的文件是否被屏蔽了,还可以告诉你robots.txt文件是怎么写的。


打电话给所有的机器人

txt文件非常类似于访问站点的机器人的一组指导。如果您想对所有的机器人使用相同的指令集,可以为特定的机器人留下特定的说明,或者使用“通配符”。Googlebot和Bingbot是机器人的两个例子,它们可能会访问您的站点。一般来说,当机器人访问您的站点时,这是一件好事,前提是您没有任何信息或图形,您不想被索引。

如果是这样的话,也许你应该重新考虑将你的私人内容发布到一个网站上。如果你有一张你不想让别人看到的照片,它不应该出现在互联网上。然而,如果你是一个专业摄影师想出售你的作品,那么你会想要小心,你的照片不能被偷。

虽然你可能希望你的机器人能够找到你的网站,因为你想找到新的客户,你可能不想要的实际图片,你想要出售,以显示在搜索引擎的结果。如果您这样做,确保它是版权或有水印在它上,使它不容易下载或以其他方式窃取。如果您有一张您觉得与您的站点无关的图片,那么您可能希望robots.txt文件中有一个部分不允许的内容。

什么是爬行延迟?为什么你应该关心?

有时候,机器人会在你想要它们之前爬行,至少可以说,这是不可取的。Yahoo、Yandex和Bing是机器人的几个例子,它们通常很快就会到达。您可以通过在robots.txt中将Crawa-Delay:10应用到您的块中来阻止它们。这将使他们在爬行和重新进入你的网站之前等待10秒钟。这将有助于如果你的网站变得太陷入交通堵塞。

这个方法也是有帮助的,如果你是编辑一个现场网站,以便访问者不会在不知不觉中发生在一个工作正在进行。这可能会导致他们认为网站是不合格的,再也不回来了。如果你延迟爬行器,这将减少发生这种情况的风险。

你可能不想爬的东西

在某些情况下,您可能不希望站点上的某些内容被机器人爬行。这可能包括你已经拍摄的个人照片,或者你不想公开的信息。或者,您可能有一个内部搜索栏,它只在您的站点内进行搜索。

这很好,但您不希望Google显示某个搜索查询结果可能显示的页面。这可能是无用的,或者更糟糕的是,混淆了一个潜在的新访问者,他们不会花时间在你的网站上寻找相关信息。

关于robots.txt文件您应该避免什么?

爬行延迟有时是有用的,但你必须小心,因为它们很容易造成弊大于利。这可能是特别有害的,如果你有一个大的网站与许多网页。你也应该避免阻止机器人爬行你的整个网站,因为你永远不会出现在搜索引擎的结果。

除非你是在为自己制作剪贴簿,或者你是一个非常私密的人,出于某种原因,你仍然想上互联网,这是至关重要的,你必须出现在搜索引擎的结果中。事实上,许多人花费了大量的时间和金钱来努力提高他们的排名。通过在你的网站上禁止爬虫,你可以说你的脚中了枪。


结语

决定是否要使用robots.txt文件非常重要,如果您决定要使用robots.txt文件,则决定是否正确地配置了robots.txt文件。不正确的robots.txt文件会阻止机器人对页面或页面进行索引,这将损害搜索引擎的排名。事实上,你甚至可能根本不出现。重要的是要记住,不使用robots.txt文件并不一定是坏事,如果您希望网站上的任何和所有东西都被机器人爬行。这是一种非常普遍和有用的做法,是完全可以接受的。

txt只是一系列改进(或不改进)的方法之一,这取决于你最终想要做什么)你的搜索引擎排名。有些人活着是为了成为最好的。其他人更喜欢保密。这是你的网站,你可以用它做任何你想要的。

 


QQ客服
胡经理