使用 robots.txt 文件对网站进行索引的指令
Posted: Tue Feb 18, 2025 5:59 am
使用的命令:
“用户代理:”
robots.txt 文件的基本准则。用于使事情更加具体。已输入机器人的名称,随后将提供进一步的说明。例如:
User-agent: Googlebot - 这种形式的基本指令意味着以下所有命令仅涉及 Google 索引机器人;
用户代理:Yandex — 指定的权限和禁止权限适用于 Yandex 机器人。
User-agent:* 条目意味着将寻址所有其他搜索引擎(特殊字符“*”表示“任何文本”)。如果我们考虑上面的例子,星号将表示除 Yandex 之外的所有搜索引擎。因为谷歌在没有个人地址的情况下做得很好,它满足于“任何文本”这个通用名称。
“不允许:”
禁用索引的最常见命令。通过 阿曼号码数据 在“User-agent:”中寻址机器人,程序员表明他不允许机器人索引网站的部分或整个网站(在这种情况下,指示从根目录开始的路径)。搜索蜘蛛通过扩展命令来理解这一点。我们也会弄清楚的。
用户代理:Yandex
不允许:/
如果 robots.txt 包含这样的条目,那么 Yandex 搜索机器人就会明白它无法索引这样的网络资源:禁止符号“/”后面没有任何说明。
用户代理:Yandex
禁止:/wp-admin
在这个例子中,有一个澄清:禁止索引仅适用于wp-admin系统文件夹(该网站在 WordPress 引擎上运行)。 Yandex 机器人看到该命令但不会索引指定的文件夹。
用户代理:Yandex
禁止:/wp-content/themes
该指令告诉爬虫它可以索引wp-content中除主题之外 的所有内容,它也确实会这样做。
用户代理:Yandex
不允许:/index$
出现了另一个重要符号“$”,这使得禁令更加灵活。在这种情况下,机器人明白它无法索引链接包含字母序列“ index ”的页面。可以索引具有类似名称“ index.php ”的单独文件,并且机器人清楚地了解这一点。
您可以禁止索引链接包含特定符号的单个资源页面。例如:
用户代理:Yandex
不允许:*&*
Yandex 机器人会这样读取命令:不要索引所有 URL 中包含“&”和其他字符之间的页面。
用户代理:Yandex
不允许:*&
在这种情况下,机器人知道只有地址以“&”结尾的页面才能被索引。
使用 robots.txt 文件对网站进行索引的指令
资料来源:shutterstock.com
我们认为很清楚为什么不可能索引系统文件、档案和个人用户数据——这不是一个需要讨论的主题。搜索机器人完全没有必要浪费时间检查对任何人都无用的数据。但关于禁止索引页面的指令,许多人提出疑问:禁止性指令的理由是什么?经验丰富的开发人员可以提出十几个不同的论据来支持禁止索引,但最主要的论据是需要在搜索中删除重复的页面。如果有的话,这将对排名、相关性和其他重要方面产生严重的负面影响。因此,如果没有 robots.txt,内部 SEO 优化是不可想象的,在其中处理重复项非常容易:您只需要正确使用“Disallow:”指令和特殊字符。
“用户代理:”
robots.txt 文件的基本准则。用于使事情更加具体。已输入机器人的名称,随后将提供进一步的说明。例如:
User-agent: Googlebot - 这种形式的基本指令意味着以下所有命令仅涉及 Google 索引机器人;
用户代理:Yandex — 指定的权限和禁止权限适用于 Yandex 机器人。
User-agent:* 条目意味着将寻址所有其他搜索引擎(特殊字符“*”表示“任何文本”)。如果我们考虑上面的例子,星号将表示除 Yandex 之外的所有搜索引擎。因为谷歌在没有个人地址的情况下做得很好,它满足于“任何文本”这个通用名称。
“不允许:”
禁用索引的最常见命令。通过 阿曼号码数据 在“User-agent:”中寻址机器人,程序员表明他不允许机器人索引网站的部分或整个网站(在这种情况下,指示从根目录开始的路径)。搜索蜘蛛通过扩展命令来理解这一点。我们也会弄清楚的。
用户代理:Yandex
不允许:/
如果 robots.txt 包含这样的条目,那么 Yandex 搜索机器人就会明白它无法索引这样的网络资源:禁止符号“/”后面没有任何说明。
用户代理:Yandex
禁止:/wp-admin
在这个例子中,有一个澄清:禁止索引仅适用于wp-admin系统文件夹(该网站在 WordPress 引擎上运行)。 Yandex 机器人看到该命令但不会索引指定的文件夹。
用户代理:Yandex
禁止:/wp-content/themes
该指令告诉爬虫它可以索引wp-content中除主题之外 的所有内容,它也确实会这样做。
用户代理:Yandex
不允许:/index$
出现了另一个重要符号“$”,这使得禁令更加灵活。在这种情况下,机器人明白它无法索引链接包含字母序列“ index ”的页面。可以索引具有类似名称“ index.php ”的单独文件,并且机器人清楚地了解这一点。
您可以禁止索引链接包含特定符号的单个资源页面。例如:
用户代理:Yandex
不允许:*&*
Yandex 机器人会这样读取命令:不要索引所有 URL 中包含“&”和其他字符之间的页面。
用户代理:Yandex
不允许:*&
在这种情况下,机器人知道只有地址以“&”结尾的页面才能被索引。
使用 robots.txt 文件对网站进行索引的指令
资料来源:shutterstock.com
我们认为很清楚为什么不可能索引系统文件、档案和个人用户数据——这不是一个需要讨论的主题。搜索机器人完全没有必要浪费时间检查对任何人都无用的数据。但关于禁止索引页面的指令,许多人提出疑问:禁止性指令的理由是什么?经验丰富的开发人员可以提出十几个不同的论据来支持禁止索引,但最主要的论据是需要在搜索中删除重复的页面。如果有的话,这将对排名、相关性和其他重要方面产生严重的负面影响。因此,如果没有 robots.txt,内部 SEO 优化是不可想象的,在其中处理重复项非常容易:您只需要正确使用“Disallow:”指令和特殊字符。