无论你是网站管理员或是SEO的初学者,都必须要了解Robots.txt。Robots.txt通过 allow 和 disallow 指令来告诉爬虫是否允许抓取网站的页面内容的,有许多初学者提问为什么自己的上新的站点内容没有被收录,首先要检查的就是Robots文件有没有配置正确。
什么是Robots.txt?
Robots.txt 是一个位于网站根目录的txt文本文件,用于告知搜索引擎爬虫(也称为机器人、蜘蛛)哪些页面或文件可以访问,哪些不能访问。它是搜索引擎优化中的一个基本工具,帮助网站管理员管理爬虫用的工具。
Robots.txt 的工作原理是什么?
爬虫访问: 当“蜘蛛爬虫”访问网站时,它们首先会寻找网站根目录下的 robots.txt 文件。如果文件存在将蜘蛛将按照robots.txt的规则进行工作。如果文件不存在,蜘蛛就走了。
指令解读: robots.txt文件包含一系列指令,指示爬虫哪些路径可以抓取或不能抓起。爬虫会按照这些指令行事,但并不是所有爬虫都会遵守这些指令。
抓取行为控制: 通过 robots.txt,网站管理员可以防止爬虫抓取特定的页面或目录,抓取行为控制的目的是为了保护敏感信息、减少服务器负载、优化抓取预算。
Robots.txt对SEO有什么作用?
建立索引:被抓取的页面内容会和搜索引擎数据库建立索引关系。
搜索排名:建立的索引越多,排名越容易上去。
优化抓取预算:搜索引擎对每个网站的抓取是有限的,通过 robots.txt,您可以指导爬虫重点抓取重要页面,屏蔽不重要的页面节约资源。
避免重复:禁止爬虫抓取重复的内容页面。
常用的蜘蛛类型有哪些?
搜索引擎 | 抓取范围 | 用户代理 |
General | Googlebot | |
Images | Googlebot-Image | |
News | Googlebot-News | |
Video | Googlebot-Video | |
Ecommerce | Storebot-Google | |
AdSense | Mediapartners-Google | |
AdWords | AdsBot-Google | |
Bing | General | Bingbot |
Bing | Images & Video | Msnbot-Media |
Bing | Bing Ads | AdIdxBot |
Bing | Page Snapshots | BingPreview |
Baidu | General | Baiduspider |
Baidu | Images | Baiduspider-Image |
Baidu | Video | Baiduspider-Video |
Baidu | News | Baiduspider-News |
Baidu | Baidu Ads | Baiduspider-Ads |
Yahoo! | General | Slurp |
Yandex | General | Yandex |
Robots.txt 常用指令
User-agent: 每个搜索引擎都有自己的用户代理用来表明自己的身份。例如
User-agent: *
Disallow: 指定不允许爬虫抓取的路径或文件。例如
Disallow: /private/
Disallow: /admin/
Disallow: /login.html
Allow: 指定允许爬虫抓取的路径或文件。例如
Allow: /public/
Sitemap: 指定站点地图的位置,帮助搜索引擎爬虫更有效地抓取您的网站。例如
Sitemap: https://www.young-digital.cn/sitemap.xml
Crawl-delay: 规定爬虫抓取两个页面之间的等待时间,以秒为单位。并非所有搜索引擎都支持这个指令。例如:
Crawl-delay: 10
Host: 指定首选的域名(在某些搜索引擎中使用),如果您的站点有多个域名,您可以使用此指令。例如:
Host: www.young-digital.cn
Robots.txt 文件示例
User-agent: *
Crawl-delay: 10
Disallow: /wp-admin/
Disallow: /go/
Disallow: /wp-content/plugins/
Disallow: /?s=*
Disallow: /author/
User-agent: YandexBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: AhrefsBot
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: YaK
Disallow: /
User-agent: PetalBot
Disallow: /
User-agent: MJ12bot
Disallow: /
Sitemap: https://www.young-digital.cn/sitemap_index.xml
这是我的robots.txt配置。