Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
robots.txt 是一个放在网站根目录下的纯文本文件,用来告诉搜索引擎爬虫(如 Googlebot、Bingbot 等)哪些页面可以抓取,哪些不可以。它不是法律意义上的“禁止”,而是基于爬虫的自愿遵守的协议(即 Robots Exclusion Protocol)。
必须放在网站根目录下,例如:
https://example.com/robots.txt
指令 | 含义说明 |
---|---|
User-agent: | 指定对哪个搜索引擎爬虫生效(* 表示所有) |
Disallow: | 禁止抓取的目录或文件路径(留空表示允许所有) |
Allow: | 明确允许抓取的路径(适用于某些搜索引擎) |
Sitemap: | 告诉爬虫网站地图的位置(可选) |
User-agent: * Disallow:
User-agent: * Disallow: /
User-agent: * Disallow: /private/ Disallow: /tmp/
User-agent: Googlebot Disallow: User-agent: * Disallow: /
User-agent: * Disallow: /*.pdf$
User-agent: * Disallow: Sitemap: https://example.com/sitemap.xml
项目 | 说明 |
---|---|
大小写敏感 | 路径区分大小写,/Private/ 和 /private/ 是不同的 |
不支持通配符标准 | 并非所有爬虫都支持 * 和 $ 通配符(Google 支持) |
不会阻止索引 | 禁止抓取不代表页面不会被索引(如果外部有链接) |
不是安全机制 | 敏感内容不要靠 robots.txt 隐藏,应使用密码保护或 noindex |
不会阻止恶意爬虫 | 恶意爬虫可以无视 robots.txt |
Google 提供 Robots.txt 测试工具(需登录 Search Console)
以下是为用WordPress搭建的网站写的内容:
# ------------------------------------------------------------------------------
# robots.txt for fhqpak.com WordPress
# Last-update: 2025-09-25
# ------------------------------------------------------------------------------
User-agent: *
# 后台及系统文件
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/*/download/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/feed/
Disallow: /?s=
Disallow: /search/
Disallow: /author/
Disallow: /cgi-bin/
Disallow: /readme.html
Disallow: /license.txt
Disallow: /wp-config.php
Disallow: /.htaccess
# 常见垃圾路径
Disallow: */comment-page-*
Disallow: /*.pdf$
Disallow: /*.zip$
Disallow: /*.gz$
Disallow: /*/feed
Disallow: /*/?replytocom=*
# 允许抓取核心上传内容(图片、文档等)
Allow: /wp-content/uploads/
# 声明站点地图
Sitemap: https://example.com/sitemap.xml