Robot.txt文件一直没太留意,好像也不太重要。但最近发现好多的爬取记录,这才觉得这玩意好像还有那么回事。
Robot.txt文件(来源:网络)
Robots.txt 是一个位于网站根目录的文本文件,用于告诉搜索引擎抓取工具(如 Googlebot、Bingbot)哪些页面或资源可以被抓取,哪些不可以。它主要用于管理搜索引擎的抓取流量,避免服务器过载或保护敏感内容不被抓取。
唉,现在网站感觉都是上世纪的老东西啰!还有人在乎这东东吗?
先用Deepseek生成了示例,关键词:设计一个标准的robot协议,除了'/admin'和 '/login' 路径不能访问外,其它都可访问.
User-agent:
Disallow: /admin
Disallow: /login
Allow: /
说明:
User-agent: 表示规则适用于所有爬虫。Disallow: /admin 和 Disallow: /login 明确禁止访问这两个路径。Allow: / 表示允许访问根目录下的所有其他内容(此条可省略,因为默认允许访问未禁止的路径,但显式写出更清晰)。注意事项:
User-agent 区块。将此文件放置在网站根目录(如 https://example.com/robots.txt)即可生效。
致敬还在坚持的站长们!