网站建设,网站设计
18122884183   18682260028   网站建设
/
/
/
/
/
/
/

老站长告诉你网站robots文件怎么写?

发布时间:2020-08-01 浏览次数:次 作者:网站建设 来源:盛强网站建设公司
老站长告诉你网站robots文件怎么写?Robot是什么?Robot英文直译是机器人在搜索引擎优化SEO中,我们经常翻译为探测器。有时你会碰到crawler(爬行器)spider(蜘蛛)都是探测器之一只是叫法不同。
 
robots.txt是搜索引擎蜘蛛访问网站时要查看的第一个文件,并且会根据robots.txt文件的内容来爬行网站。在某种意义上说,它的一个任务就是指导蜘蛛爬行,减少搜索引擎蜘蛛的工作量。
 
老站长告诉你网站robots文件怎么写
 
1.定义搜索引擎
 
用User-agent:来定义搜索引擎,其中*表示所有
 
百度蜘蛛名字:Baiduspider,谷歌蜘蛛名字:Googlebot。
 
User-agent:*表示定义所有蜘蛛
 
User-agent: Baiduspider表示自定义百度蜘蛛,
 
User-agent: Googlebot表示自定义谷歌蜘蛛
 
大家可以参考百度或者淘宝的robots.txt,他么就是这样写的,而我们小站只需要自定义所有搜索引擎蜘蛛即可。
 
2.禁止访问和允许访问
 
User-agent: *
 
Disallow: /
 
表示禁止所有搜索引擎访问;
 
User-agent: *
 
Allow: /
 
表示允许所有搜索引擎访问。
 
PS:在:后面/前面有一个英文状态下的空格,空格必须有,必须是英文状态下的
 
3.禁止搜索引擎访问网站中的某些目录
 
假设a是我网站根目录的一个文件夹,写法分别如下:
 
User-agent: *
 
Disallow: /a
 
禁止搜索引擎访问a文件夹及a文件夹下面的所有文件
 
User-agent: *
 
Disallow: /a/
 
禁止搜索引擎访问a文件夹下面的所有文件,但是a文件夹是允许被访问的(这里阐述不太清楚,具体大家可以去百度站长平台测试)
 
4、禁止搜索引擎访问某一类文件
 
$表示结尾,如果要禁止搜索引擎访问css结尾的文件,写法如下:
 
User-agent: *
 
Disallow: /*.css$
 
如果要禁止搜索引擎访问js结尾的文件,写法如下:
 
User-agent: *
 
Disallow: /*.js$
 
*号表示所有,$表示结尾,上面两个举例则表示所有css或者js结尾的文件
 
5.禁止访问网站中的动态页面
 
禁止访问网站中的动态页面,写法如下:
 
User-agent: *
 
Disallow: /*?*
 
?表示动态路径,*号表示所有。
 
6.禁止访问某个字母开头的文件
 
为了隐藏我们网站的一些目录,如后台地址等,假如shenshan这个文件夹是我网站的后台地址,我不想让别人通过robots.txt文件看到它,可以这样写
 
User-agent: *
 
Disallow: /sh*
 
这就表示所有sh开头的目录都不能访问
 
7.允许访问首页
 
只允许搜索引擎蜘蛛访问我们网站首页,写法如下:
 
User-agent: *
 
Disallow: /*
 
头条的robots.txt就是这样写的(似乎暴露了什么)。
 
8.禁止访问二级目录
 
如果我有两个文件夹下面同时存在shenshan这个文件夹,我又不想让搜索引擎访问shenshan这个文件夹,可以这样写:
 
User-agent: *
 
Disallow: /*/shenshan
 
书写robots文件注意事项
 
1.robots文件的后缀必须是.txt;
 
2.robots文件应该存放在网站的根目录,而且所有字母都必须小写;
 
3.在写robots文件的时候,User-agent、Disallow、Allow、Sitemap这些词开头第一个字母必须大写,后面的字母则要小写;
 
4.特别注意,在:后面必须有一个英文状态下的空格。
 
robots文件常见屏蔽对象
 
1:中文的链接-路径,抓取不友好,或者我们不需要它来排名。例如屏蔽“联系我们”:Disallow: /lianxi/
 
2:搜索结果页面,重复的质量低的。例如:
 
https://www.12300003.com/course/search?key=%E5%BB%BA%E7%AD%91&cateKey=%E5%BB%BA%E7%AD%91
 
https://www.www.12300003.com/course/search?key=%E4%BD%A0%E5%A5%BD&cateKey=%E4%BD%A0%E5%A5%BD
 
技巧:先找到规律。假如我们不允许抓取以下的 ,写成: Disallow: /course/search?key=*
 
3:动态路径,链接规律:?%/ ?等等 例如屏蔽带有?号的动态链接: Disallow: /*?*
 
4:js文件的 Disallow: /*.js$ 备注:官方的说法,关于js使用建议
 
5:网站的目录:模板目录、插件目录、后台目录。
 
robots文件编写误区
 
区别性:例如
 
Disallow: /ab=Disallow: /ab*
 
Disallow: /ab/ 前后有斜杠的/ab/代表单个文件夹
 
Disallow: /ab = Disallow: /* 斜杠代表了整个网站,范围更广。
 
例:
 
Disallow: /ab 这个规则对于以下两个链接都是屏蔽的:Disallow: /abc Disallow: /ab/123
 
Disallow: /ab/ 这个规则,只对 Disallow: /ab/123 生效,对于Disallow: /abc是无效的。
 
robots书写关于网站安全问题
 
Disallow: /dede 就知道网站是织梦做的,就会暴露网站程序。
 
1:织梦后台是可以修改程序的,例:Disallow: /dede 把dede改成ffff 即:Disallow: /ffff
 
2:wordpress 呢, 例: Disallow: /wp_admin 修改成:Disallow: /*admin
 
robots文件检测
 
写完robots文件后,记得检测一下文件。我们可以到百度站长平台校验,地址是:http://ziyuan.baidu.com/robots
 
robots文件添加网站地图
 
由于蜘蛛首先抓取的是robots文件,所以我们需要把我们网站地图【网站链接集成】写入到robots文件里面,可以放在文件最底部,方便蜘蛛更快抓取和更好收录,如Sitemap: url。
 
总之robots.txt文件是个比较严谨,书写过程严格按照规则来,当然最重要的是写好之后要检查,以防书写错误,导致蜘蛛抓取不到。
 
最后总结:robots文件对于网站站内优化,相信对于robots的书写是非常重要的,robots相当于蜘蛛进入网站的第一道关卡,如果没有在这文件里面写入一些蜘蛛不能摸的东西,估计到时候蜘蛛就会给你曝光,所以robots文件的重要性就是如此的。
 
标签:
最新案例
每天分享更多网站建设及网页设计的技术知识...
  • 东莞宝科精密机械公司案例

    东莞宝科精密机械公司案例

    东莞宝科精密机械公司案例
  • 惠州礼裕皮带网站案例

    惠州礼裕皮带网站案例

    惠州礼裕皮带网站案例
  • 广州宏信塑料五金网站案例

    广州宏信塑料五金网站案例

    广州宏信塑料五金网站案例
  • 点餐APP开发案例

    点餐APP开发案例

    点餐APP开发案例
  • 小程序开发案例

    小程序开发案例

    小程序开发案例
  • Hoteam Art网店设计

    Hoteam Art网店设计

    Hoteam Art网店设计
  • 超市门户网站制作案例

    超市门户网站制作案例

    超市门户网站制作案例
  • 深圳LED显示屏手机网站案例

    深圳LED显示屏手机网站案例

    深圳LED显示屏手机网站案例
  • 盛强为冠艺网站制作的案例

    盛强为冠艺网站制作的案例

    盛强为冠艺网站制作的案例
  • 版权所有:深圳盛强网络 Copyright © 2018-2019 www.12300003.com All Rights ReservedICP备案编号: 粤ICP备19042032号
    热门搜索词:深圳网络公司、网络推广,网站建设,网页设计
  • 18122884183

    2252901951

    返回顶部