网易出品    必出精品
0510-881001984007-999-163
客服热线400-710-6678
×

我要网站建设介绍PPT,输入邮件地址,我们把最新的PPT介绍资料发给您。



标 题:网站优化中Robots协议的原则标签及其他属性
日 期:2019.03.25
位 置:首页>新闻> 优化知识 >网站优化中Robots协议的原则标签及其他属性

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。robots.txt文件是一个文本文件,使用任何一个常见的文本编辑器,比如Windows系统自带的Notepad,就可以创建和编辑它。robots.txt是一个协议,而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

65

一、原则

Robots协议是国际互联网界通行的道德规范,基于以下原则建立:

1、搜索技术应服务于人类,同时尊重信息提供者的意愿,并维护其隐私权;

2、网站有义务保护其使用者的个人信息和隐私不被侵犯。

二、标签

Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况,而Robots Meta标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots Meta标签也是放在页面中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。

Robots Meta标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。

1.index指令告诉搜索机器人抓取该页面;

2.follow指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;

3.Robots Meta标签的缺省值是index和follow,只有inktomi除外,对于它,缺省值是index、nofollow。

三、其他属性

1. Robot-version: 用来指定robot协议的版本号

例子: Robot-version: Version 2.0

2.Crawl-delay:雅虎YST一个特定的扩展名,可以通过它对我们的抓取程序设定一个较低的抓取请求频率。您可以加入Crawl-delay:xx指示,其中,“XX”是指在crawler程序两次进入站点时,以秒为单位的最低延时。

3. Visit-time:只有在visit-time指定的时间段里,robot才可以访问指定的URL,否则不可访问.

例子: Visit-time: 0100-1300 #允许在凌晨1:00到13:00访问

4. Request-rate: 用来限制URL的读取频率

例子: Request-rate: 40/1m 0100 - 0759 在1:00到07:59之间,以每分钟40次的频率进行访问

Request-rate: 12/1m 0800 - 1300 在8:00到13:00之间,以每分钟12次的频率进行访问


转载请注明来自:https://www.haizr.com/news/sitenews/85547.html

标签:网站优化 Robots 海之睿 




将文章分享到..

热门文章

Are You Interested ?
感兴趣吗?
与我们联系了解更多吧
有一个互联网项目想和我们谈谈吗?您可以填写右边的表格,让我们了解您的项目需求,这是一个良好的开始,我们将会尽快与你取得联系。当然也欢迎您给我们写信或是打电话,让我们听到你的声音!
  • 网站服务热线:400-710-6678
    邮箱服务热线:400-799-9163
  • 电话:0510-88100198 渠道:0510-80211762
  • 地址:无锡市滨湖区蠡湖大道2018号普信copo 3栋810室
  • E-mail:fuwu@haizr.com

合作意向表/ Cooperation Form

您需要的服务

您最关注的地方

预算