robots.txt文件详解

robots.txt 是一个放在网站根目录下的纯文本文件，用来告诉搜索引擎爬虫（如 Googlebot、Bingbot 等）哪些页面可以抓取，哪些不可以。它不是法律意义上的“禁止”，而是基于爬虫的自愿遵守的协议（即 Robots Exclusion Protocol）。

robots.txt文件位置

必须放在网站根目录下，例如：

https://example.com/robots.txt

基本语法

指令	含义说明
`User-agent:`	指定对哪个搜索引擎爬虫生效（`*` 表示所有）
`Disallow:`	禁止抓取的目录或文件路径（留空表示允许所有）
`Allow:`	明确允许抓取的路径（适用于某些搜索引擎）
`Sitemap:`	告诉爬虫网站地图的位置（可选）

✅ 示例详解

1. 允许所有爬虫访问所有内容

User-agent: * Disallow:

2. 禁止所有爬虫访问整个网站

User-agent: * Disallow: /

3. 禁止爬虫访问特定目录

User-agent: * Disallow: /private/ Disallow: /tmp/

4. 只允许 Google 爬虫访问，其他禁止

User-agent: Googlebot Disallow: User-agent: * Disallow: /

5. 禁止抓取特定文件类型

User-agent: * Disallow: /*.pdf$

6. 提供网站地图

User-agent: * Disallow: Sitemap: https://example.com/sitemap.xml

需要注意的是：

项目	说明
大小写敏感	路径区分大小写，`/Private/` 和 `/private/` 是不同的
不支持通配符标准	并非所有爬虫都支持 `*` 和 `$` 通配符（Google 支持）
不会阻止索引	禁止抓取不代表页面不会被索引（如果外部有链接）
不是安全机制	敏感内容不要靠 `robots.txt` 隐藏，应使用密码保护或 `noindex`
不会阻止恶意爬虫	恶意爬虫可以无视 `robots.txt`

测试工具

Google 提供 Robots.txt 测试工具（需登录 Search Console）

示例

以下是为用WordPress搭建的网站写的内容：

# ------------------------------------------------------------------------------
#  robots.txt for fhqpak.com  WordPress
#  Last-update: 2025-09-25
# ------------------------------------------------------------------------------
User-agent: *
# 后台及系统文件
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/*/download/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/feed/
Disallow: /?s=
Disallow: /search/
Disallow: /author/
Disallow: /cgi-bin/
Disallow: /readme.html
Disallow: /license.txt
Disallow: /wp-config.php
Disallow: /.htaccess
# 常见垃圾路径
Disallow: */comment-page-*
Disallow: /*.pdf$
Disallow: /*.zip$
Disallow: /*.gz$
Disallow: /*/feed
Disallow: /*/?replytocom=*
# 允许抓取核心上传内容（图片、文档等）
Allow: /wp-content/uploads/
# 声明站点地图
Sitemap: https://example.com/sitemap.xml