Hexo配置生成百度Sitemap
背景
当我们生成网站信息的时候,有时需要提交搜索引擎进行收录对应的域名地址,一般这样的xml文件我们放置在网站的根目录下,提交给搜索引擎去爬取内容,对应的也可以设置robots.txt文件用于禁止搜索引擎爬取我们的内容页。
搜索引擎爬取网站内容后带来的好处就是可以直接通过它的搜索引擎搜索到我们网站的内容,但是排名啥的可能就不尽如人意,这个就需要做SEO了。
但是网站中有些链接,我们并不希望百度对它收录,所以这个时候可以借助网站robots.txt文件禁止搜索引擎收录
搭建
自动生成sitemap
安装插件
1
2
3
4在项目的根目录下执行
hexo-generator-sitemap是生成google的,hexo-generator-baidu-sitemap是生成baidu的,根据需要安装
npm install hexo-generator-sitemap --save
npm install hexo-generator-baidu-sitemap --save修改配置文件
1
2
3
4
5
6打开项目的根目录下的_config.yml文件进行配置
URL修改为网站对应的域名
url: https://www.52zhaoyue.cn/
root: /
permalink: :year/:month/:day/:title/
permalink_defaults:执行命令,生成baidusitemap.xml文件
1
hexo clean && hexo g && hexo d
去生成的public文件夹下,就可以发现有一个baidusitemap.xml文件,它对应于网站的路径为:【你的域名/baidusitemap.xml】,将该地址提交给百度即可
配置robots.txt
在hexo的source文件夹下创建文件robots.txt
robots.txt应该存放在网站的根目录,而且所有字母都必须小写;在写robots文件的时候,User-agent、Disallow、Allow、Sitemap这些词开头第一个字母必须大写,后面的字母则要小写;特别注意,在:后面必须有一个英文状态下的空格。
编辑robots.txt的内容部分
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24#开头表示注释内容
User-agent:标识搜索引擎的爬虫,*标识所有,Baiduspider标识百度爬虫,Googlebot标识google爬虫
User-agent: *
Disallow:搜索引擎禁止访问的地址
Disallow: /2020/01/01
Allow:搜索引擎允许访问的地址
Allow: /shuai
支持通配符:*表示匹配任意一段字符,$表示匹配url结尾的字符
Allow: /*.js
Disallow: /baidu.js$
结尾带/表示禁止搜索引擎访问该路径下的所有子路径,但是该路径是允许被访问的
Disallow: /shuaiqi/
结尾不带/表示禁止搜索引擎访问该路径及该路径下的所有文件
Disallow: /shuaiqi
Sitemap:网站sitemap的地址
Sitemap: https://www.52zhaoyue.cn/baidusitemap.xml
从上到下可以依次配置多个这样的以应对不同的搜索引擎爬虫