obots.txt 文件通常位于您网站的根目录中。要访问它,您需要 Yoast 之类的插件或对您的服务器的 FTP 访问权限。
以下是如何使用 FTP 查找 robots.txt 文件:
- 首先访问您网站的根目录。这是包含您网站的所有文件和目录的主文件夹。
- 在大多数情况下,您可以使用 FTP 客户端(例如FileZilla )或通过您的网络托管控制面板通过 FTP(文件传输协议)访问根目录。
- 进入根目录后,查找名为“robots.txt”的文件。robots.txt 文件通常位于此处。如果您没有看到该文件,则表示尚未为您的网站创建该文件。
- 如果找不到 robots.txt 文件,您可以选择创建一个。只需创建一个新的文本文件并将其命名为“robots.txt”。确保将其放在您网站的根目录中。
- 找到或创建 robots.txt 文件后,您可以使用文本编辑器(如记事本或任何其他纯文本编辑器)对其进行编辑。
注意:您可能在根目录中找不到 robots.txt 文件。这意味着它不存在。但不用担心,您可以使用文章中提到的协议创建一个 robots.txt 文件并将其上传到根目录。它会完美运行。但是,请确保您上传的是 .txt 文件,而不是 .doc 或 .page 等文本编辑器版本。
如果您不是技术人员,您可 垃圾邮件数据 以选择安装Yoast SEO 插件。安装后,您可以使用此插件编辑 robots.txt 文件。
以下是使用 Yoast SEO 插件的方法
- 登录到您的 WordPress 仪表板。
- 导航到左侧菜单中的“SEO”部分,然后单击 Yoast SEO 菜单中的“工具”。
- 在“工具”选项卡中,单击“文件编辑器”选项。
- 您将看到一个显示 robots.txt 文件内容的屏幕。如果该文件尚不存在,您可以点击“创建 robots.txt 文件”按钮创建一个。
- Yoast SEO 插件提供了一个用户友好的界面,您可以在其中编辑 robots.txt 文件。根据需要进行必要的更改或添加。
- 完成所需的修改后,点击“将更改 提升数字营销能力,实现更好成果 保存到 robots.txt”按钮保存更改。
Robots.txt 文件中的元素
robots.txt 文件由指令组成,用于指导搜索引擎机器人如何与网站进行交互。以下是您在典型的 robots.txt 文件中可以找到的一些关键组件:
用户代理:
User-agent元素用于指定规则适用的 Web 爬虫。这是应出现在 robots.txt 文件中的第一个规则集。
如果您想将同一组规则应用于 1000个手机号码 所有网络爬虫,则需要使用星号(*)。
例如:用户代理:*
如果您想指定用户代理,请提供其名称。
示例:用户代理:Googlebot
以下是您可以在 robots.txt 文件中使用的用户代理列表,以匹配最常用的搜索引擎:
如果您想了解有关 Google 的用户代理和查询字符串的更多信息,请查看这篇文章。
禁止:
您可以在 robots.txt 文件中找到第二条指令。它用于告诉搜索引擎爬虫必须排除哪些页面的爬取。
当您使用带有正斜杠 (/) 的 Disallow 指令时,它是针对您选择不扫描任何页面的用户代理的通配符指令。
例如:不允许:/
如果您想要忽略一个或多个特定文件夹,则可以将 disallow 指令与子文件夹或 URL 路径一起使用。
例如:Disallow: /private/
允许:
当最初的 Robots 排除协议(也称为Robots 排除标准或 robots.txt 协议)于 1998 年发布时,它并不包含允许指令。
但是,在 Google 和其他搜索引擎开始使用 robots.txt 协议后,“允许”指令指示可以抓取的 URL 和文件夹。
当您使用带有正斜杠 (/) 的 Allow 指令时,它是针对用户代理的指令,可以不受限制地抓取网站上的所有页面。
例如:允许:/
如果您打算仅允许不允许的页面中的特定 URL/子文件夹,则可以在侦探中明确定义该页面。
例子:
这又是 一个 搜索引擎专用指令,可帮助爬虫识别网站的站点地图 URL。在 robots.txt 文件中添加网站的站点地图将有助于搜索引擎轻松导航到包含网站重要 URL 的站点地图文件。
例如:站点地图: