WordPress站点robots.txt规则写法写法参考
WordPress是知名且被广泛使用的内容管理系统,使用WordPress搭建的站点在全球所有站点中已经超过25%。
对于WordPress而言多样化的功能也为网站的搜索引擎优化(SEO)带来了一些新问题。
所以在使用WordPress搭建站点时我们也需要针对这些问题做一些变动来进行搜索引擎优化。
WordPress系统在发布任何内容时都会生成一个短链接,这个短链接是固定且是动态的链接。
若网站本身已经更改URL结构那么会造成文章URL与短链接形成重复内容,这对于SEO是非常不利的。
所以我们要通过robots.txt协议来禁止掉搜索引擎抓取这些不利的内容,从而提高SEO效果。
以下是蓝点网robots.txt的内容,供各位使用WordPress的站长们参考:
1.User-agent: * //允许所有蜘蛛爬行
2.Disallow: /feed //禁止抓取网站feed内容
3.Disallow: /*/feed //禁止抓取文章页feed内容
4.Disallow: /trackback //禁止抓取TrackBack
5.Disallow: /wp-* //禁止抓取WordPress程序目录
6.Disallow: /*.css$ //禁止抓取全站所有css文件
7.Disallow: /*.js$ //禁止抓取网站所有js文件
8.Disallow: /?p=* //禁止抓取文章页的短链接
9.Disallow: /*/attachment/* //禁止抓取网站所有附件内容
10.Disallow: /*/comment-page-* //禁止抓取文章页的评论分页
11.Sitemap: https://www.landian.vip/sitemap.xml //网站地图12.注:*号代表通配符、robots.txt支持通配符
注意事项:
1、第3点、第8点不适用于使用WordPress默认链接结构的站点(即文章页都是/?p=***类型);
2、禁止抓取文章页评论分页的原因在于会形成重复的页面,即使只有一条评论也会收录两次;
3、禁止抓取网站所有附件内容的原因在于没有必要开放,并且倘若站点开放注册则可能会被广告机上传文件名为广告的内容,一旦被搜索引擎抓取并收录则可能影响网站的排名甚至降权处罚。