robots协议的作用是什么

 时间:2024-10-12 05:44:42

1、spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。robots.txt文件应该放置在网站根目录下。例如:百度spider首先会检查该网站中是否存在http://one.oyjit.com/robots.txt这个文件

2、robots功能:robots协议用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取;可以屏蔽一些网站中比较大的文件,如:图片,音乐,视频等,节省服务器带宽;可以屏蔽站点的一些死链接。方便搜索引擎抓取网站内容;设置网站地图连接,方便引导蜘蛛爬取页面。robots格式User-agent: *Disallow:allow:"*"和"$"的含义Baiduspider支持使用通配符"*"和"$"来模糊匹配url。"$" 匹配行结束符。"*" 匹配0或多个任意字符。对于一般企业可以这样的去写,在Disallow掉不想被搜索引擎抓取的文件即可,比如我们的网站数据,图片等等。

  • mysql linux执行完sql后怎么退出
  • rabbitmq如何清缓存
  • 新版虚拟机怎么启动系统
  • eclipse debug 怎么执行表达式
  • Visual Studio Code怎么开启格式以换行符结尾
  • 热门搜索
    赤水旅游 广州旅游攻略 洛阳旅游景点 广西旅游 西宁旅游攻略 云南旅游 三亚旅游景点 衢州旅游 旅游好去处 越南旅游