利用Robots.txt优化你的WordPress站点

2018年7月28日10:00:38 发表评论

本月推荐:高佣联盟,免费领取一件淘宝商品,还包邮哦!

教程地址:http://jjsoho.com/gylm/

很多建站新手对robots.txt文件的重要作用不是很清楚,正确使用robots文件有助于做好seo优化,利用这篇文章普及一下WordPress站点robots.txt文件编写知识。

百度官网是认可这个文件的,在百度资源平台上也有robots这个栏目,点击进入,就可以看到你网站robots文件是否编写正确了。

利用Robots.txt优化你的WordPress站点

一、Robots.txt是什么?

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

由于新站上线,蜘蛛的抓取频率相对较低,为了尽量让其抓取有效资源,你可能需要屏蔽部分不那么重要的内容。比如:尚未建设好的目录,登录与注册按钮等。

搜索引擎机器人访问网站时,首先会寻找站点根目录有没有 robots.txt文件,如果有这个文件就根据文件的内容确定收录范围,如果没有就按默认访问以及收录所有页面。另外,当搜索蜘蛛发现不存在robots.txt文件时,会产生一个404错误日志在服务器上,从而增加服务器的负担,因此为站点添加一个robots.txt文件还是很重要的。

如淘宝网就通过设置robots.txt屏蔽百度搜索引擎:

User-agent: Baiduspider

Disallow: /

User-agent: baiduspider

Disallow: /

二、robots.txt有什么作用?

robots.txt文件至少有下面两方面的作用:

通过设置屏蔽搜索引擎访问不必要被收录的网站页面,可以大大减少因spider抓取页面所占用的网站带宽,小网站不明显,大型网站就很明显了。

设置robots.txt可以指定google或百度不去索引哪些网址,比如我们通过url重写将动态网址静态化为永久固定链接之后,就可以通过robots.txt设置权限,阻止Google或百度等搜索引擎索引那些动态网址,从而大大减少了网站重复页面,对SEO优化起到了很明显的作用。

三、robots.txt 怎么写?

其实robots.txt并没有固定格式,大家想怎么写就怎么写,每个人都有自己的经验和技巧,最主要就是要防止自己的隐私也被搜索引擎抓取了就好。

关于如何写robots.txt文件,在下面我们会以WordPress博客来作更具体举例说明。

这里先提示几点robots.txt写法中应该注意的地方。如robots.txt文件里写入以下代码:

User-agent: *

Disallow:

Allow: /

robots.txt必须上传到你的网站根名录下,在子目录下无效;

robots.txt,Disallow等必须注意大小写,不能变化;

User-agent,Disallow等后面的冒号必须是英文状态下的,冒号后面可以空一格,也可以不空格。网上有人说冒号后面必须有空格,其实没有也是可以的。

User-agent表示搜索引擎spider:星号“*”代表所有spider,Google的spider是“Googlebot”,百度是“Baiduspider”;

Disallow:表示不允许搜索引擎访问和索引的目录;

Allow:指明允许spider访问和索引的目录,Allow: / 表示允许所有,和Disallow: 等效。

WordPress站点默认在浏览器中输入:http://你的域名/robots.txt,会显示如下内容:

User-agent:?*

Disallow:?/wp-admin/

Disallow:?/wp-includes/

这是由WordPress自动生成的,意思是告诉搜索引擎不要抓取后台程序文件。

但这是远远不够的,比较完整的WordPress站点robots.txt文件内容如下:

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-content/

Disallow: /wp-includes/

Disallow: /*/comment-page-*

Disallow: /*?replytocom=*

Disallow: /category/*/page/

Disallow: /tag/*/page/

Disallow: /*/trackback

Disallow: /feed

Disallow: /*/feed

Disallow: /comments/feed

Disallow: /?s=*

Disallow: /*/?s=*\

Disallow: /*?*

Disallow: /attachment/

使用方法:新建一个名称为robots.txt文本文件,将上面的内容放进去,然后上传到网站根目录即可。

下面分别解释一下各项的作用:

1、Disallow: /wp-admin/、Disallow: /wp-content/和Disallow: /wp-includes/

用于告诉搜索引擎不要抓取后台程序文件页面。

2、Disallow: /*/comment-page-*和Disallow: /*?replytocom=*

禁止搜索引擎抓取评论分页等相关链接。

3、Disallow: /category/*/page/和Disallow: /tag/*/page/

禁止搜索引擎抓取收录分类和标签的分页。

4、Disallow: /*/trackback

禁止搜索引擎抓取收录trackback等垃圾信息

5、Disallow: /feed、Disallow: /*/feed和Disallow: /comments/feed

禁止搜索引擎抓取收录feed链接,feed只用于订阅本站,与搜索引擎无关。

6、Disallow: /?s=*和Disallow: /*/?s=*\

禁止搜索引擎抓取站内搜索结果

7、Disallow:?/*?*

禁止搜索抓取动态页面

8、Disallow: /attachment/

禁止搜索引擎抓取附件页面,比如毫无意义的图片附件页面。

上面只是些基本的写法,当然还有很多,不过够用了。

四、特殊案例情况:robots.txt与子目录绑定的问题

如果forum用的是绑定子目录的方式,而实际使用的是比如是forum.jjsoho.com这样的二级域名,那么就要避免 jjsoho.com/forum/这样的url被搜索引擎收录,可以在主目录中的robots.txt中加入:

User-agent: *

Disallow: /forum/

五、总结

1、将代码编写在记事本上,然后保存为robots.txt,直接上传到网站的根目录就可以生效了,建议上传之后,最好用百度站长平台中的“网站分析”→“robots”检查一下语法是否正确,确保万无一失。

Robots.txt 文件必须放在网站的根目录。放在子目录的 Robots.txt 文件搜索引擎不能爬取到,所以不会起任何作用。(除非你的子目录是一个绑定了域名的新网站)

2、在书写写这些语句的时候尤其注意的一点是冒号(:)和( /) 之间要有一个空格符,如果这个空格没有加的话,是不能起到作用的,robots.txt文件一般放在网站的根目录下,而且命名必须是robots.txt。

3、rbotts.txt文件在屏蔽目录的时候,注意,这里如果是阻止抓取某目录的话目录名字一定要注意“/”,不带“/”表示的是阻止访问这个目录页面和目录下的页面,而带上“/”则表示进阻止目录下的内容页面,这两点要分清楚。

为了让搜索引擎更快的收录我们的内页,我们一般都会做一个百度地图,那么,Sitemap: + 网站地图,这个命令就可以快速的引导搜索引擎蜘蛛来到你的地图页面对网站内页进行抓取。当网站的死链接过多处理非常麻烦的时候,我们可以利用robots来屏蔽这些页面,这样就可以避免网站因为死链接被百度降权。

好了,以上就是对利用robots.txt对wordpress博客进行优化的详细内容,希望可以帮助到你。

金哥
  • 版权声明:本站原创文章,转载请保留出处和链接!
  • 本文链接:http://jjsoho.com/robots/ 网赚有风险,投资需谨慎!

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: