个人博客网站百度只收录文章不收录标签和目录初探

2018-12-07 10:16:08  阅读 873 次 评论 0 条

从所周知,通过site命令可能查看一个网站的收录情况,今天小编通过site:99zyxxw.com发现自己的网站只收录文章而不收录标签和目录,这种情况小编还是第一次见。况且小编这个个人博客网站(99资源学习网)发表的每一篇文章百度都是当天收录的,这不得不让小编怀疑是哪里出了问题才导致百度收录我的文章而不收录标签和目录。

后来通过咨询其他站长,建议我检查网站的sitemap和robots文件是否有问题,检查后发现自己的网站上并没有robots.txt文件,心想会不会是服务器默认禁止了搜索引擎蜘蛛爬行标签和目录才导致不收录呢?

所以最后决定扔一份robots.txt文件到网站根目录上,具体写法如下:

User-agent: *
Disallow: /zb_install/
Disallow: /zb_system/
Sitemap: http://99zyxxw.com/sitemap.xml
Sitemap: http://99zyxxw.com/sitemaps.xml
Sitemap: http://99zyxxw.com/sitemaps.html

把搜索引擎蜘蛛引导到sitemap地图上,希望这样做会有效果吧。先观察几天再说。

网站标签和目录不被百度收录.jpg

另外,顺便在这里简单介绍下robots.txt文件的写法:

以下内容摘自百度百科:

User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图

简单来说就是User-agent、Disallow、Allow和Sitemap几个命令的组合,并没有什么难的,所以不展开介绍了,实在看不懂的可以自行百度深入了解。

以上就是关于小编个人博客网站只收录文章不收录标签和目录的探讨,希望过几天能看到惊喜吧!

站长心愿:如果本文帮到了你,请点击上方广告支持下本站!
本文地址:http://99zyxxw.com/82.html
版权声明:本文为原创文章,版权归 小翟同学 所有,欢迎分享本文,转载请保留出处!

发表评论


表情

还没有留言,还不快点抢沙发?