“爬虫” 有很多种叫发:网络爬虫(英语:web crawler),也叫网络蜘蛛(spider)。它是一种自动化程序或脚本,能够模仿人类用户访问网络页面,并获取、提取网站上的信息。它们通过浏览网页,下载数据并解析内容,通常用于数据采集、搜索引擎索引、监控网站内容等。
常见的 “ 爬虫 ” 有哪些
爬虫名称 | 用途 |
Googlebot | Google搜索引擎的爬虫,用于索引网页内容 |
Bingbot | Bing搜索引擎的爬虫,用于索引网页内容 |
Baiduspider | 百度搜索引擎的爬虫,用于索引中文网页 |
Screaming Frog | 网站分析工具爬虫,用于SEO审查和抓取网站数据 |
Scrapy | 开源爬虫框架,用于开发定制爬虫进行数据采集 |
WebHarvy | 自动化网页数据抓取工具,用于图像、文本等内容的采集 |
Yandexbot | Yandex搜索引擎的爬虫,用于网页索引和搜索结果更新 |
Twitterbot | Twitter使用的爬虫,用于获取公共社交媒体内容 |
AhrefsBot | Ahrefs的爬虫,用于网站链接分析和SEO分析 |
Xenu Link Sleuth | 主要用于检查网站的死链接和页面链接健康性 |
“爬虫” 会根据网站中的 “ robots.txt ” 的文件规则而进行内容进行抓取。如果 “爬虫” 的访问量或频次过快,也会对网站造成负载。
什么是 Robots
什么是 Robots ?Robots 是搜索引擎用来自动抓取和索引网站内容的程序,遵循 robots.txt 文件和 meta 标签指令,决定哪些页面可以被抓取,哪些需要排除,帮助搜索引擎更好地理解和索引网站内容。Robots 是指自动化抓取和索引网站内容的程序,通常由搜索引擎的爬虫执行。它们会遵循网站上的 robots.txt
文件、页面上的 meta 标签以及其他指令,决定哪些页面或资源可以被抓取,哪些需要排除,从而帮助搜索引擎了解和索引网站内容。通过合理设置 robots,可以有效控制网站的访问权限,提升搜索引擎优化的效果。
Robots 的工作原理
Robots 的工作原理,主要分成一下 4 步:抓取网站内容、分析网页内容、遵循 Robots.txt 文件、将数据存储到索引。
抓取网站内容: Robots 会从网站的首页开始,抓取网页内容。它们通过追踪网页上的链接,继续抓取其他页面。爬虫会不断访问网页,抓取最新的内容,确保搜索引擎的数据是最新的。
分析网页内容: 抓取到网页内容后,robots 会分析页面的内容,包括标题、正文、图片、链接等,以便搜索引擎理解该页面的主题和重要性。
遵循 Robots.txt 文件: 为了防止不必要的抓取或保护某些页面不被公开索引,网站管理员可以在网站根目录中设置 robots.txt 文件来指示爬虫哪些页面或资源可以抓取,哪些不能抓取。爬虫会遵循这些指令。
将数据存储到索引: 抓取到的数据会被搜索引擎存储在索引库中,以便在用户搜索时提供相关的搜索结果。
以上就是 Robots 的工作原理的四步原理,掌握这些后我们来看下它对 SEO 的作用吧。
Robots 对 SEO 的作用
建立索引:被抓取的页面内容会和搜索引擎数据库建立索引关系。
搜索排名:建立的索引越多,排名越容易上去。
优化抓取预算:搜索引擎对每个网站的抓取是有限的,通过 robots.txt,您可以指导爬虫重点抓取重要页面,屏蔽不重要的页面节约资源。
避免重复:禁止爬虫抓取重复的内容页面。
Robots 设置教程
User-agent: 每个搜索引擎都有自己的用户代理用来表明自己的身份。例如
User-agent: *
Disallow: 指定不允许爬虫抓取的路径或文件。例如
Disallow: /private/
Disallow: /admin/
Disallow: /login.html
Allow: 指定允许爬虫抓取的路径或文件。例如
Allow: /public/
Sitemap: 指定站点地图的位置,帮助搜索引擎爬虫更有效地抓取您的网站。例如
Sitemap: https://www.young-digital.cn/sitemap.xml
Crawl-delay: 规定爬虫抓取两个页面之间的等待时间,以秒为单位。并非所有搜索引擎都支持这个指令。例如:
Crawl-delay: 10
Host: 指定首选的域名(在某些搜索引擎中使用),如果您的站点有多个域名,您可以使用此指令。例如:
Host: www.young-digital.cn
如何生成 Robots 文件
robots.txt
文件一般是由网站管理员手动创建并放置在网站的根目录中。如果你使用了SEO的插件:Rank Math 或 Yoast 插件工具的话,会自动在项目的根目录下创建 robots.txt 文件。以上是创建 robots 文件的几种方法:
手动编写:打开一个文本编辑器,然后根据需求编写规则。
使用在线生成工具:你可以使用一些在线工具生成 robots.txt
文件。
WordPress 插件:如果你使用 WordPress,可以安装插件来生成和管理 robots.txt
文件,例如 Rank Math 、Yoast SEO 或 All in One SEO,这些插件会在后台自动为你生成和管理 robots.txt
文件。
Robots 文件示例
User-agent: *
Crawl-delay: 10
Disallow: /wp-admin/
Disallow: /go/
Disallow: /wp-content/plugins/
Disallow: /?s=*
Disallow: /author/
User-agent: YandexBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: AhrefsBot
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: YaK
Disallow: /
User-agent: PetalBot
Disallow: /
User-agent: MJ12bot
Disallow: /
Sitemap: https://www.young-digital.cn/sitemap_index.xml
这是我的robots.txt配置,大家可以根据自己的需求去设置。
总结
知道什么是 Robots了吗?想要了解更多的关于 SEO 方面的技术吗?跟着本站的SEO教程一步步实践操作吧。