写在前面的一些话
WordPress建站从零开始
使用 Enfold 轻松建设企业站
强烈推荐:SiteGround 虚拟主机
域名 & 服务器
WordPress 建站知识汇总
其它
强烈推荐的小工具
商业
写在前面的一些话
WordPress建站从零开始
使用 Enfold 轻松建设企业站
强烈推荐:SiteGround 虚拟主机
域名 & 服务器
WordPress 建站知识汇总
其它
强烈推荐的小工具
商业
搜索引擎爬虫(蜘蛛)进入网站都是先看网站的 robots.txt 文件,以确认哪些是允许抓取和不允许抓取的,然后爬虫就会先从sitemap(网站地图)开始检索内容。
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
搜索引擎机器人访问网站时,首先会寻找站点根目录有没有 robots.txt 文件,如果有这个文件就根据文件的内容确定收录范围,如果没有就按默认访问以及收录所有页面。另外,当搜索蜘蛛发现不存在 robots.txt 文件时,会产生一个404错误日志在服务器上,从而增加服务器的负担,因此为站点添加一个robots.txt文件还是很重要的。
比较完整的WordPress站点robots.txt文件内容如下:
User-agent: * Disallow: /wp-admin/ Disallow: /wp-content/ Disallow: /wp-includes/ Disallow: /*/comment-page-* Disallow: /*?replytocom=* Disallow: /category/*/page/ Disallow: /tag/*/page/ Disallow: /*/trackback Disallow: /feed Disallow: /*/feed Disallow: /comments/feed Disallow: /?s=* Disallow: /*/?s=*\ Disallow: /*?* Disallow: /attachment/
使用方法:将以上文件下载,上传到网站根目录即可,当然,你应当根据自己网站的实际作一些必要的修改。
下面分别解释一下各项的作用:
可以使用 Yoast SEO 生成网站地图,我们可以看一下这里:https://www.junbro.com/sitemap_index.xml
它是一个 XML 格式文件,有了网站地图,就可以去 GOOGLE和百度站长管理里提交网站地图,以便搜索引擎尽快抓取收录我们的网站。
同时,我们应当把这个网站地图链接放在 robots.txt 最后一行。如下:
User-agent: * Disallow: /wp-admin/ Disallow: /wp-content/ Disallow: /wp-includes/ Disallow: /*/comment-page-* Disallow: /*?replytocom=* Disallow: /category/*/page/ Disallow: /tag/*/page/ Disallow: /*/trackback Disallow: /feed Disallow: /*/feed Disallow: /comments/feed Disallow: /?s=* Disallow: /*/?s=*\ Disallow: /*?* Disallow: /attachment/ Sitemap: http://www.你的域名.com/sitemap_index.xml