搜索引擎支持哪些Robots Meta标签

2019-10-18 4801

分享至：

搜索引擎支持nofollow和noarchive。

　　禁止搜索引擎收录的方法

　　1. 什么是robots.txt文件?搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时，会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件，这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt，在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。

　　请注意，仅当您的网站包含不希望被搜索引擎收录的内容时，才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容，请勿建立robots.txt文件。

　　2. robots.txt文件放在哪里?robots.txt文件应该放置在网站根目录下。举例来说，当spider访问一个网站(比如 http://www.abc.com)时，首先会检查该网站中是否存在http://www.abc.com/robots.txt这个文件，如果 Spider找到这个文件，它就会根据这个文件的内容，来确定它访问权限的范围。

　　网站 URL 相应的 robots.txt的 URL

　　http://www.w3.org/ http://www.w3.org/robots.txt

　　http://www.w3.org:80/ http://www.w3.org:80/robots.txt

　　http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt

　　http://w3.org/ http://w3.org/robots.txt

　　3. 我在robots.txt中设置了禁止搜索引擎跟收录我网站的内容，为何还出现在搜索引擎跟搜索结果中?如果其他网站链接了您robots.txt文件中设置的禁止收录的网页，那么这些网页仍然可能会出现在搜索引擎跟的搜索结果中，但您的网页上的内容不会被抓取、建入索引和显示，搜索引擎跟搜索结果中展示的仅是其他网站对您相关网页的描述。

　　4. 禁止搜索引擎跟踪网页的链接，而只对网页建索引如果您不想搜索引擎追踪此网页上的链接，且不传递链接的权重，请将此元标记置入网页的部分：

　　如果您不想搜索引擎跟追踪某一条特定链接，搜索引擎跟还支持更精确的控制，请将此标记直接写在某条链接上：sign in

　　要允许其他搜索引擎跟踪，但仅防止搜索引擎跟跟踪您网页的链接，请将此元标记置入网页的部分：

　　5. 禁止搜索引擎在搜索结果中显示网页快照，而只对网页建索引要防止所有搜索引擎显示您网站的快照，请将此元标记置入网页的部分：

　　要允许其他搜索引擎显示快照，但仅防止搜索引擎跟显示，请使用以下标记：

　　注：此标记只是禁止搜索引擎跟显示该网页的快照，搜索引擎跟会继续为网页建索引，并在搜索结果中显示网页摘要。

　　6. 我想禁止百度图片搜索收录某些图片，该如何设置?禁止Baiduspider抓取网站上所有图片、禁止或允许Baiduspider抓取网站上的某种特定格式的图片文件可以通过设置robots实现，请参考“robots.txt文件用法举例”中的例10、11、12。

　　7. robots.txt文件的格式"robots.txt"文件包含一条或更多的记录，这些记录通过空行分开(以CR,CR/NL, or NL作为结束符)，每一条记录的格式如下所示：":"

　　在该文件中可以使用#进行注解，具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始，后面加上若干Disallow和Allow行,详细情况如下：

　　User-agent:

　　该项的值用于描述搜索引擎robot的名字。在"robots.txt"文件中，如果有多条User-agent记录说明有多个robot会受到"robots.txt"的限制，对该文件来说，至少要有一条User-agent记录。如果该项的值设为*，则对任何robot均有效，在"robots.txt"文件中，"User-agent:*"这样的记录只能有一条。如果在"robots.txt"文件中，加入"User- agent:SomeBot"和若干Disallow、Allow行，那么名为"SomeBot"只受到"User-agent:SomeBot"后面的 Disallow和Allow行的限制。

　　Disallow:

　　该项的值用于描述不希望被访问的一组URL，这个值可以是一条完整的路径，也可以是路径的非空前缀，以Disallow项的值开头的URL不会被 robot访问。例如"Disallow:/help"禁止robot访问/help.html、/helpabc.html、/help /index.html，而"Disallow:/help/"则允许robot访问/help.html、/helpabc.html，不能访问 /help/index.html。"Disallow:"说明允许robot访问该网站的所有url，在"/robots.txt"文件中，至少要有一条Disallow记录。如果"/robots.txt"不存在或者为空文件，则对于所有的搜索引擎robot，该网站都是开放的。

　　Allow:

　　该项的值用于描述希望被访问的一组URL，与Disallow项相似，这个值可以是一条完整的路径，也可以是路径的前缀，以Allow项的值开头的URL 是允许robot访问的。例如"Allow:/hibaidu"允许robot访问/hibaidu.htm、/hibaiducom.html、 /hibaidu/com.html。一个网站的所有URL默认是Allow的，所以Allow通常与Disallow搭配使用，实现允许访问一部分网页同时禁止访问其它所有URL的功能。

　　使用"*"and"$"：

　　Baiduspider支持使用通配符"*"和"$"来模糊匹配url。

　　"$" 匹配行结束符。

　　"*" 匹配0或多个任意字符。

　　8. URL匹配举例Allow或Disallow的值 URL 匹配结果

　　/tmp /tmp yes

　　/tmp /tmp.html yes

　　/tmp /tmp/a.html yes

　　/tmp /tmp no

　　/tmp /tmphoho no

　　/Hello* /Hello.html yes

　　/He*lo /Hello,lolo yes

　　/Heap*lo /Hello,lolo no

　　html$ /tmpa.html yes

　　/a.html$ /a.html yes

　　htm$ /a.html no

　　9. robots.txt文件用法举例例1. 禁止所有搜索引擎访问网站的任何部分

　　下载该robots.txt文件 User-agent: *

　　Disallow: /

　　例2. 允许所有的robot访问

　　(或者也可以建一个空文件 "/robots.txt") User-agent: *

　　Allow: /

　　例3. 仅禁止Baiduspider访问您的网站 User-agent: Baiduspider

　　Disallow: /

　　例4. 仅允许Baiduspider访问您的网站 User-agent: Baiduspider

　　Allow: /

　　User-agent: *

　　Disallow: /

　　例5. 仅允许Baiduspider以及Googlebot访问 User-agent: Baiduspider

　　Allow: /

　　User-agent: Googlebot

　　Allow: /

　　User-agent: *

　　Disallow: /

　　例6. 禁止spider访问特定目录

　　在这个例子中，该网站有三个目录对搜索引擎的访问做了限制，即robot不会访问这三个目录。需要注意的是对每一个目录必须分开声明，而不能写成 "Disallow: /cgi-bin/ /tmp/"。 User-agent: *

　　Disallow: /cgi-bin/

　　Disallow: /tmp/

　　Disallow: /~joe/

　　例7. 允许访问特定目录中的部分url User-agent: *

　　Allow: /cgi-bin/see

　　Allow: /tmp/hi

　　Allow: /~joe/look

　　Disallow: /cgi-bin/

　　Disallow: /tmp/

　　Disallow: /~joe/

　　例8. 使用"*"限制访问url

　　禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。 User-agent: *

　　Disallow: /cgi-bin/*.htm

　　例9. 使用"$"限制访问url

　　仅允许访问以".htm"为后缀的URL。 User-agent: *

　　Allow: /*.htm$

　　Disallow: /

　　例10. 禁止访问网站中所有的动态页面 User-agent: *

　　Disallow: /*?*

　　例11. 禁止Baiduspider抓取网站上所有图片

　　仅允许抓取网页，禁止抓取任何图片。 User-agent: Baiduspider

　　Disallow: /*.jpg$

　　Disallow: /*.jpeg$

　　Disallow: /*.gif$

　　Disallow: /*.png$

　　Disallow: /*.bmp$

　　例12. 仅允许Baiduspider抓取网页和.gif格式图片

　　允许抓取网页和gif格式图片，不允许抓取其他格式图片 User-agent: Baiduspider

　　Allow: /*.gif$

　　Disallow: /*.jpg$

　　Disallow: /*.jpeg$

　　Disallow: /*.png$

　　Disallow: /*.bmp$

　　例13. 仅禁止Baiduspider抓取.jpg格式图片 User-agent: Baiduspider

　　Disallow: /*.jpg$

来源声明：

本文章系尚品中国编辑原创或采编整理，如需转载请注明来自尚品中国。以上内容部分(包含图片、文字)来源于网络，如有侵权，请及时与本站联系（010-60259772）。

行业解决方案

立即预约专属顾问开启数字化转型之旅！

10年+资深项目经理1V1服务 | 行业定制化方案 | 精准报价体系

获取策划方案

科研院所解决方案

外贸出海解决方案

协会学会解决方案

集团上市公司解决方案

生物医药解决方案

制造业解决方案

高校教育解决方案

搜索引擎支持哪些Robots Meta标签

行业解决方案

热门标签

客户认可

尚品中国签约华安资产官网改版项目

尚品签约Charles River维通利华网站建设项目

构建数字未来，尚品签约中联数据

尚品签约大兴航空城微信小程序设计及开发项目

尚品签约海南国家公园研究院官网改版项目

尚品中标中国医学科学院病原生物学研究所网站建设项目

尚品签约山东经典重工集团——构建国际化品牌官网升级

立即预约专属顾问开启数字化转型之旅！

友情链接

咨询我们，获得专业的服务和报价

科研院所解决方案

外贸出海解决方案

协会学会解决方案

集团上市公司解决方案

生物医药解决方案

制造业解决方案

高校教育解决方案

搜索引擎支持哪些Robots Meta标签

行业解决方案

热门标签

客户认可

尚品中国签约华安资产官网改版项目

尚品签约Charles River维通利华网站建设项目

构建数字未来，尚品签约中联数据

尚品签约大兴航空城微信小程序设计及开发项目

尚品签约海南国家公园研究院官网改版项目

尚品中标中国医学科学院病原生物学研究所网站建设项目

尚品签约山东经典重工集团——构建国际化品牌官网升级

立即预约专属顾问 开启数字化转型之旅！

友情链接

咨询我们，获得专业的服务和报价

立即预约专属顾问开启数字化转型之旅！