b2bwp robots txt

robots.txt文件详解

robots.txt 是一个放在网站根目录下的纯文本文件,用来告诉搜索引擎爬虫(如 Googlebot、Bingbot 等)哪些页面可以抓取,哪些不可以。它不是法律意义上的“禁止”,而是基于爬虫的自愿遵守的协议(即 Robots Exclusion Protocol)。

b2bwp robots txt
robots.txt

robots.txt文件位置


必须放在网站根目录下,例如:

https://example.com/robots.txt

基本语法

指令含义说明
User-agent:指定对哪个搜索引擎爬虫生效(* 表示所有)
Disallow:禁止抓取的目录或文件路径(留空表示允许所有)
Allow:明确允许抓取的路径(适用于某些搜索引擎)
Sitemap:告诉爬虫网站地图的位置(可选)

✅ 示例详解

1. 允许所有爬虫访问所有内容

User-agent: * Disallow:

2. 禁止所有爬虫访问整个网站

User-agent: * Disallow: /

3. 禁止爬虫访问特定目录

User-agent: * Disallow: /private/ Disallow: /tmp/

4. 只允许 Google 爬虫访问,其他禁止

User-agent: Googlebot Disallow: User-agent: * Disallow: /

5. 禁止抓取特定文件类型

User-agent: * Disallow: /*.pdf$

6. 提供网站地图

User-agent: * Disallow: Sitemap: https://example.com/sitemap.xml

 

需要注意的是:

项目说明
大小写敏感路径区分大小写,/Private//private/ 是不同的
不支持通配符标准并非所有爬虫都支持 *$ 通配符(Google 支持)
不会阻止索引禁止抓取不代表页面不会被索引(如果外部有链接)
不是安全机制敏感内容不要靠 robots.txt 隐藏,应使用密码保护或 noindex
不会阻止恶意爬虫恶意爬虫可以无视 robots.txt

测试工具

Google 提供 Robots.txt 测试工具(需登录 Search Console)

示例

以下是为用WordPress搭建的网站写的内容:

# ------------------------------------------------------------------------------
#  robots.txt for fhqpak.com  WordPress
#  Last-update: 2025-09-25
# ------------------------------------------------------------------------------
User-agent: *
# 后台及系统文件
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/*/download/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/feed/
Disallow: /?s=
Disallow: /search/
Disallow: /author/
Disallow: /cgi-bin/
Disallow: /readme.html
Disallow: /license.txt
Disallow: /wp-config.php
Disallow: /.htaccess
# 常见垃圾路径
Disallow: */comment-page-*
Disallow: /*.pdf$
Disallow: /*.zip$
Disallow: /*.gz$
Disallow: /*/feed
Disallow: /*/?replytocom=*
# 允许抓取核心上传内容(图片、文档等)
Allow: /wp-content/uploads/
# 声明站点地图
Sitemap: https://example.com/sitemap.xml