MY Database

Posted: **Tue Feb 18, 2025 5:59 am**

使用的命令：

“用户代理：”
robots.txt 文件的基本准则。用于使事情更加具体。已输入机器人的名称，随后将提供进一步的说明。例如：

User-agent: Googlebot - 这种形式的基本指令意味着以下所有命令仅涉及 Google 索引机器人；

用户代理：Yandex — 指定的权限和禁止权限适用于 Yandex 机器人。

User-agent：* 条目意味着将寻址所有其他搜索引擎（特殊字符“*”表示“任何文本”）。如果我们考虑上面的例子，星号将表示除 Yandex 之外的所有搜索引擎。因为谷歌在没有个人地址的情况下做得很好，它满足于“任何文本”这个通用名称。

“不允许：”
禁用索引的最常见命令。通过阿曼号码数据在“User-agent：”中寻址机器人，程序员表明他不允许机器人索引网站的部分或整个网站（在这种情况下，指示从根目录开始的路径）。搜索蜘蛛通过扩展命令来理解这一点。我们也会弄清楚的。

用户代理：Yandex

不允许：/

如果 robots.txt 包含这样的条目，那么 Yandex 搜索机器人就会明白它无法索引这样的网络资源：禁止符号“/”后面没有任何说明。

用户代理：Yandex

禁止：/wp-admin

在这个例子中，有一个澄清：禁止索引仅适用于wp-admin系统文件夹（该网站在 WordPress 引擎上运行）。 Yandex 机器人看到该命令但不会索引指定的文件夹。

用户代理：Yandex

禁止：/wp-content/themes

该指令告诉爬虫它可以索引wp-content中除主题之外的所有内容，它也确实会这样做。

用户代理：Yandex

不允许：/index$

出现了另一个重要符号“$”，这使得禁令更加灵活。在这种情况下，机器人明白它无法索引链接包含字母序列“ index ”的页面。可以索引具有类似名称“ index.php ”的单独文件，并且机器人清楚地了解这一点。

您可以禁止索引链接包含特定符号的单个资源页面。例如：

用户代理：Yandex

不允许：*&*

Yandex 机器人会这样读取命令：不要索引所有 URL 中包含“&”和其他字符之间的页面。

用户代理：Yandex

不允许：*&

在这种情况下，机器人知道只有地址以“&”结尾的页面才能被索引。

使用 robots.txt 文件对网站进行索引的指令
资料来源：shutterstock.com

我们认为很清楚为什么不可能索引系统文件、档案和个人用户数据——这不是一个需要讨论的主题。搜索机器人完全没有必要浪费时间检查对任何人都无用的数据。但关于禁止索引页面的指令，许多人提出疑问：禁止性指令的理由是什么？经验丰富的开发人员可以提出十几个不同的论据来支持禁止索引，但最主要的论据是需要在搜索中删除重复的页面。如果有的话，这将对排名、相关性和其他重要方面产生严重的负面影响。因此，如果没有 robots.txt，内部 SEO 优化是不可想象的，在其中处理重复项非常容易：您只需要正确使用“Disallow：”指令和特殊字符。