深入了解Robots.txt:功能与使用方法详解

seo的robots封面图

无论你是网站管理员或是SEO的初学者,都必须要了解Robots.txt。Robots.txt通过 allow 和 disallow 指令来告诉爬虫是否允许抓取网站的页面内容的,有许多初学者提问为什么自己的上新的站点内容没有被收录,首先要检查的就是Robots文件有没有配置正确。

什么是Robots.txt?

Robots.txt 是一个位于网站根目录的txt文本文件,用于告知搜索引擎爬虫(也称为机器人、蜘蛛)哪些页面或文件可以访问,哪些不能访问。它是搜索引擎优化中的一个基本工具,帮助网站管理员管理爬虫用的工具。

Robots.txt 的工作原理是什么?

爬虫访问: 当“蜘蛛爬虫”访问网站时,它们首先会寻找网站根目录下的 robots.txt 文件。如果文件存在将蜘蛛将按照robots.txt的规则进行工作。如果文件不存在,蜘蛛就走了。

指令解读: robots.txt文件包含一系列指令,指示爬虫哪些路径可以抓取或不能抓起。爬虫会按照这些指令行事,但并不是所有爬虫都会遵守这些指令。

抓取行为控制: 通过 robots.txt,网站管理员可以防止爬虫抓取特定的页面或目录,抓取行为控制的目的是为了保护敏感信息、减少服务器负载、优化抓取预算。

Robots.txt对SEO有什么作用?

建立索引:被抓取的页面内容会和搜索引擎数据库建立索引关系。

搜索排名:建立的索引越多,排名越容易上去。

优化抓取预算:搜索引擎对每个网站的抓取是有限的,通过 robots.txt,您可以指导爬虫重点抓取重要页面,屏蔽不重要的页面节约资源。

避免重复:禁止爬虫抓取重复的内容页面。

常用的蜘蛛类型有哪些?

搜索引擎

抓取范围

用户代理

Google

General

Googlebot

Google

Images

Googlebot-Image

Google

News

Googlebot-News

Google

Video

Googlebot-Video

Google

Ecommerce

Storebot-Google

Google

AdSense

Mediapartners-Google

Google

AdWords

AdsBot-Google

Bing

General

Bingbot

Bing

Images & Video

Msnbot-Media

Bing

Bing Ads

AdIdxBot

Bing

Page Snapshots

BingPreview

Baidu

General

Baiduspider

Baidu

Images

Baiduspider-Image

Baidu

Video

Baiduspider-Video

Baidu

News

Baiduspider-News

Baidu

Baidu Ads

Baiduspider-Ads

Yahoo!

General

Slurp

Yandex

General

Yandex

Robots.txt 常用指令

User-agent: 每个搜索引擎都有自己的用户代理用来表明自己的身份。例如

				
					User-agent: *
				
			

Disallow: 指定不允许爬虫抓取的路径或文件。例如

				
					Disallow: /private/
Disallow: /admin/
Disallow: /login.html

				
			

Allow: 指定允许爬虫抓取的路径或文件。例如

				
					Allow: /public/
				
			

Sitemap: 指定站点地图的位置,帮助搜索引擎爬虫更有效地抓取您的网站。例如

				
					Sitemap: https://www.young-digital.cn/sitemap.xml
				
			

Crawl-delay: 规定爬虫抓取两个页面之间的等待时间,以秒为单位。并非所有搜索引擎都支持这个指令。例如:

				
					Crawl-delay: 10

				
			

Host: 指定首选的域名(在某些搜索引擎中使用),如果您的站点有多个域名,您可以使用此指令。例如:

				
					Host: www.young-digital.cn
				
			

Robots.txt 文件示例

				
					User-agent: *
Crawl-delay: 10
Disallow: /wp-admin/
Disallow: /go/
Disallow: /wp-content/plugins/
Disallow: /?s=*
Disallow: /author/

User-agent: YandexBot
Disallow: /

User-agent: DotBot
Disallow: /

User-agent: AhrefsBot
Disallow: /

User-agent: BLEXBot
Disallow: /

User-agent: YaK
Disallow: /

User-agent: PetalBot
Disallow: /

User-agent: MJ12bot
Disallow: /

Sitemap: https://www.young-digital.cn/sitemap_index.xml
				
			

这是我的robots.txt配置。

转载:感谢您对本站的认可,非常欢迎各位朋友分享到个人站长或者朋友圈,但转载请说明文章出处 “来源wordpress建站 - 漾动网络”

0 0 投票数
文章评分
订阅评论
提醒
0 评论
最旧
最新
内联反馈
查看所有评论
wordpress建站广告宣传图

Get Your Free Demo Free Demo

Sign Up to Sitech