了解 Robots.txt 文件以及如何在网站 SEO 中正确使用它们
Posted: Sat Dec 14, 2024 5:42 am
Robots.txt 是用于促进网站上搜索算法导航的文件,指导哪些页面应在搜索引擎中建立索引并控制搜索引擎机器人不应访问哪些页面。
安德烈·穆西尼奥
19年10月29日 | 8 分钟阅读
什么是机器人txt
阅读时间: 6 分钟
确保您的网站出现在用户搜索中对于任何数字营销策略的成功都至关重要。
为了实现这一目标,您通常会投资SEO 策略、内容营销和一系列其他可以吸引搜索引擎注意的行动,从而增加您网站的流量。
但是,您的网站上肯定有一些页面是您不希望搜索引擎抓取的,例如登录页面和其他包含仅由客户或团队成员访问的文件的页面。
为了帮助您隐藏这些页面,有 robots.txt。
robots.txt 文件是什么?
Robots.txt 是一个应该保存在您网站 伊朗电话区号 的根文件夹中的文件,它告诉Google、Bing和许多其他搜索引擎您不希望这些互联网搜索引擎访问您网站上的哪些页面。
顾名思义,robots.txt 是一个可以在您自己的笔记本中创建的 .txt 文件,无需使用工具来创建它。
Robots.txt 使用标准机器人排除协议格式,这是一组搜索机器人用于查找站点上不应访问的目录和页面的命令。
由于该文件直接保存在网站的根文件夹中,因此从其他页面访问 robots.txt 文件非常简单:只需在浏览器中输入页面地址,然后在URL末尾添加命令“/robots.txt”即可。
这样做可以给您一些有趣的想法,并让您知道竞争对手想要从其页面隐藏的一些地址。
robots.txt 文件有什么用?
正如我们所说,robots.txt 用于给出搜索机器人的特定命令。
为了帮助大家更好的理解,我们列出了它的具体功能。
1.控制对图像文件的访问
Robots.txt 可以阻止您页面的图像文件出现在搜索结果中。
这有助于控制对某些重要信息的访问,例如信息图表和技术产品详细信息。
由于它们没有显示在搜索结果中,因此用户将不得不访问您的页面,这对您的公司来说可能更有趣。
但需要注意的是,robots.txt 不会阻止其他页面和用户复制和共享您的图像链接。
还有其他工具可以帮助您实现此目标。
2. 控制网页访问
您的页面也由非图像文件组成,这些文件是您自己的域上的网页。
除了防止搜索机器人访问受限制或与您的策略无关的页面外,使用 robots.txt 还有助于防止托管您网站的服务器被搜索引擎结果淹没,从而帮助您的企业节省资金。
但是,请务必记住,就像图像一样,如果用户直接链接到您的某些页面,他们仍然可以找到这些页面。
3. 阻止对资源文件的访问
除了阻止图像和网页之外,robots.txt 还可用于阻止对其他不太重要的脚本和样式文件的访问,从而节省服务器。
但是,您也应该谨慎使用此功能,特别是如果这些功能对于正确加载页面至关重要,这可能会使爬虫的工作变得更加困难并阻碍对页面的分析。
如何创建 robots.txt 文件?
创建 robots.txt 文件非常简单,只需要了解一些特定命令即可。
该文件可以在您计算机的笔记本或您选择的其他文本编辑器中创建。
您还需要访问域的根文件夹。
要创建 robots.txt 文件,您必须访问域的根目录,它将在其中保存您创建的文件。
之后,您需要了解 robots.txt 的一些命令和语法。
robots.txt命令是什么
robots.txt中的命令的工作方式与HTML和市场上的各种编程语言类似。
机器人将遵循一些命令来导航和查找您网站上的页面。
这些是 robots.txt 文件中的一些主要命令:
用户代理命令
您可以使用 User-agent 命令在 robots.txt 文件中输入市场上每个搜索机器人的特定订单,以确定它所指的搜索机器人。
要了解每个用户代理的名称,您可以查阅Web Robots数据库,其中列出了市场上主要搜索引擎的机器人。
Google 的主要搜索机器人是Googlebot。
如果您想给它特定的命令,您在 robots.txt 中输入的命令将是这样的:
用户代理:Googlebot
如果您想为 Bing 搜索机器人留下特定命令,则命令如下:
用户代理:Bingbot
如您所见,您只需更改用户代理的名称即可。
如果您想输入所有搜索机器人应遵循的总体方向,只需将用户代理名称替换为星号即可。它会是这样的:
用户代理:*
安德烈·穆西尼奥
19年10月29日 | 8 分钟阅读
什么是机器人txt
阅读时间: 6 分钟
确保您的网站出现在用户搜索中对于任何数字营销策略的成功都至关重要。
为了实现这一目标,您通常会投资SEO 策略、内容营销和一系列其他可以吸引搜索引擎注意的行动,从而增加您网站的流量。
但是,您的网站上肯定有一些页面是您不希望搜索引擎抓取的,例如登录页面和其他包含仅由客户或团队成员访问的文件的页面。
为了帮助您隐藏这些页面,有 robots.txt。
robots.txt 文件是什么?
Robots.txt 是一个应该保存在您网站 伊朗电话区号 的根文件夹中的文件,它告诉Google、Bing和许多其他搜索引擎您不希望这些互联网搜索引擎访问您网站上的哪些页面。
顾名思义,robots.txt 是一个可以在您自己的笔记本中创建的 .txt 文件,无需使用工具来创建它。
Robots.txt 使用标准机器人排除协议格式,这是一组搜索机器人用于查找站点上不应访问的目录和页面的命令。
由于该文件直接保存在网站的根文件夹中,因此从其他页面访问 robots.txt 文件非常简单:只需在浏览器中输入页面地址,然后在URL末尾添加命令“/robots.txt”即可。
这样做可以给您一些有趣的想法,并让您知道竞争对手想要从其页面隐藏的一些地址。
robots.txt 文件有什么用?
正如我们所说,robots.txt 用于给出搜索机器人的特定命令。
为了帮助大家更好的理解,我们列出了它的具体功能。
1.控制对图像文件的访问
Robots.txt 可以阻止您页面的图像文件出现在搜索结果中。
这有助于控制对某些重要信息的访问,例如信息图表和技术产品详细信息。
由于它们没有显示在搜索结果中,因此用户将不得不访问您的页面,这对您的公司来说可能更有趣。
但需要注意的是,robots.txt 不会阻止其他页面和用户复制和共享您的图像链接。
还有其他工具可以帮助您实现此目标。
2. 控制网页访问
您的页面也由非图像文件组成,这些文件是您自己的域上的网页。
除了防止搜索机器人访问受限制或与您的策略无关的页面外,使用 robots.txt 还有助于防止托管您网站的服务器被搜索引擎结果淹没,从而帮助您的企业节省资金。
但是,请务必记住,就像图像一样,如果用户直接链接到您的某些页面,他们仍然可以找到这些页面。
3. 阻止对资源文件的访问
除了阻止图像和网页之外,robots.txt 还可用于阻止对其他不太重要的脚本和样式文件的访问,从而节省服务器。
但是,您也应该谨慎使用此功能,特别是如果这些功能对于正确加载页面至关重要,这可能会使爬虫的工作变得更加困难并阻碍对页面的分析。
如何创建 robots.txt 文件?
创建 robots.txt 文件非常简单,只需要了解一些特定命令即可。
该文件可以在您计算机的笔记本或您选择的其他文本编辑器中创建。
您还需要访问域的根文件夹。
要创建 robots.txt 文件,您必须访问域的根目录,它将在其中保存您创建的文件。
之后,您需要了解 robots.txt 的一些命令和语法。
robots.txt命令是什么
robots.txt中的命令的工作方式与HTML和市场上的各种编程语言类似。
机器人将遵循一些命令来导航和查找您网站上的页面。
这些是 robots.txt 文件中的一些主要命令:
用户代理命令
您可以使用 User-agent 命令在 robots.txt 文件中输入市场上每个搜索机器人的特定订单,以确定它所指的搜索机器人。
要了解每个用户代理的名称,您可以查阅Web Robots数据库,其中列出了市场上主要搜索引擎的机器人。
Google 的主要搜索机器人是Googlebot。
如果您想给它特定的命令,您在 robots.txt 中输入的命令将是这样的:
用户代理:Googlebot
如果您想为 Bing 搜索机器人留下特定命令,则命令如下:
用户代理:Bingbot
如您所见,您只需更改用户代理的名称即可。
如果您想输入所有搜索机器人应遵循的总体方向,只需将用户代理名称替换为星号即可。它会是这样的:
用户代理:*