热门关键词

robots文件应该屏蔽哪些内容-robots常见的规则表达

什么是robots文件

robots是一个文本格式(txt)的文件,它一般在网站的根目录中,它是一个告诉搜索引擎蜘蛛抓取内容的协议文件

我博客的robots文件地址:qingheseo.com/robots.txt

robots的作用

robots.txt的作用是:告诉搜索引擎哪些页面可以抓取,哪些页面不允许抓取

并且设置好robots文件后,它还能屏蔽部分搜索引擎蜘蛛的抓取

在robots中,我们也可以设置网站的站点地图(sitemap),设置后每次蜘蛛来时,都会访问一次我们的站点地图

robots.txt中的常见规则表达

1.User-agent

User-agent – 指定搜索引擎爬虫,可以设置多个user-agent,用来针对不同的蜘蛛设置不同的规则

例如:

  • User-agent: *表示所有蜘蛛
  • User-agent: Googlebot 表示只允许谷歌蜘蛛抓取

2.Allow/Disallow

Allow表示允许抓取的目录

Disallow表示不允许抓取的目录

例如:

  • Allow: /public/ 允许爬取/public/目录
  • Disallow: /private/ 禁止爬取/private/目录
  • Disallow: / 禁止爬取所有内容

3.Crawl-delay

Crawl-delay用于表示告诉搜索引擎蜘蛛抓取的时间间隔

例如:

  • Crawl-delay: 10 表示搜索引擎蜘蛛每次抓取间隔10秒

4.Sitemap

sitemap 表示网站的站点地图所在位置

例如:

Sitemap:https://www.qingheseo.com/wp-sitemap.xml

这个地址是WordPress自带的站点地图地址,由于我目前没使用第三方插件,只专注写博客了

所以。。这个地址就是我当前网站的站点地图

5.通配符使用

通配符指的是:*,用来表示所有

例如:

  • Disallow: /*.pdf$ 禁止访问所有PDF文件
  • Disallow: /*?*禁止带参数的动态URL

robots文件的优化方法

robots文件通常放在网站的根目录下,

可以看到这是我博客的robots的文件内容

robots常见的屏蔽内容

1.动态链接

首先,动态链接不利于SEO,因为动态链接参数过多,且由于是动态链接,其URL经常发生变化,所以要把网站的链接格式改成静态链接或伪静态链接

这篇《做Google SEO时网站URL的优化方法》中提到了WordPress网站如何修固定链接样式

2.搜索结果页面

在WordPress网站中都带有搜索的功能,有时候用户会在网站上搜索无用的关键词,进而会产生垃圾页面

所以,我们可以使用Disallow: /search 来告诉蜘蛛,后缀是/search结尾的统统不允许抓取

3.附件或视频地址

网站上可能有很多的附件地址或视频所在的URL,建议把这些文件所在的URL屏蔽掉

4.网站后台地址

我们都知道,网站后台地址是很重要的

当有不良居心的人进入到你的网站后台,对你的网站、文章、页面、数据、个人知名度都是毁灭性的打击

WordPress网站可以修改网站后台的登录地址,也可以用插件实现登陆地址的个性化变动

我们也可以在robots中写一个关于屏蔽网站后台登录地址,格式为:Disallow:/wp-login/或Diasllow:/wp-admin/

注意:可以不用写完你的后台登陆地址或后台管理界面,只需写前3位

搜索引擎看到后,就会自动不抓取这些开头及后续的URL

5.重复收录的无用链接

有一些内容较少且无用的页面链接,我们也可以把它们放到robots的协议中

也可以查看网站日志,看蜘蛛的抓取内容,从而确认蜘蛛是否抓取了无用链接,从而屏蔽掉

评论
收藏
微海报
分享

评论留言