论坛: UNIX系统 标题: 寻问UNIX系统robots漏洞 复制本贴地址    
作者: BrideX [bridex]    论坛用户   登录
robots.txt

请问这个漏洞有什么危险么?

以及怎么防范该漏洞啊?


[此贴被 BrideX(bridex) 在 06月02日21时50分 编辑过]

地主 发表时间: 04-06-02 21:49

回复: BrideX [bridex]   论坛用户   登录
#
# robots.txt for http://www.w3.org/
#
# $Id: robots.txt,v 1.25 2004/04/21 07:42:41 dom Exp $
#

# For use by search.w3.org
User-agent: W3Crobot/1
Disallow: /Out-Of-Date

# AltaVista Search
User-agent: AltaVista Intranet V2.0 W3C Webreq
Disallow: /Out-Of-Date

# exclude some access-controlled areas
User-agent: *
Disallow: /Team
Disallow: /Project
Disallow: /Systems
Disallow: /Web
Disallow: /History
Disallow: /Out-Of-Date
Disallow: /2002/02/mid
Disallow: /mid/
Disallow: /People/all/
Disallow: /People/all/
Disallow: /2003/03/Translations/byLanguage
Disallow: /2003/03/Translations/byTechnology

User-Agent: W3C-checklink
Disallow:




B1层 发表时间: 04-06-03 12:42

回复: BrideX [bridex]   论坛用户   登录
Robots.txt指南

当搜索引擎访问一个网站时,它首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。Robots.txt文件用于限定搜索引擎对其网站的访问范围,即告诉搜索引擎网站中哪些文件是允许它进行检索(下载)的。这就是大家在网络上常看到的“拒绝Robots访问标准”(Robots Exclusion Standard)。下面我们简称RES。 Robots.txt文件的格式:Robots.txt文件的格式比较特殊,它由记录组成。这些记录通过空行分开。其中每条记录均由两个域组成:
  1) 一个User-Agent(用户代理)字符串行;
  2) 若干Disallow字符串行。
  记录格式为:<Field> ":" <value>
  下面我们分别对这两个域做进一步说明。
User-agent(用户代理):
  User-agent行(用户代理行) 用于指定搜索引擎robot的名字,以Google的检索程序Googlebot为例,有:User-agent: Googlebot
  一个robots.txt中至少要有一条User-agent记录。如果有多条User-agent记录,则说明有多个robot会受到RES标准的限制。当然了,如果要指定所有的robot,只需用一个通配符"*"就搞定了,即:User-agent: *
Disallow(拒绝访问声明):
  在Robots.txt文件中,每条记录的第二个域是Disallow:指令行。这些Disallow行声明了该网站中不希望被访问的文件和(或)目录。例如"Disallow: email.htm"对文件的访问进行了声明,禁止Spiders下载网站上的email.htm文件。而"Disallow: /cgi-bin/"则对cgi-bin目录的访问进行了声明,拒绝Spiders进入该目录及其子目录。Disallow声明行还具有通配符功能。例如上例中"Disallow: /cgi-bin/"声明了拒绝搜索引擎对cgi-bin目录及其子目录的访问,而"Disallow:/bob"则拒绝搜索引擎对/bob.html和/bob/indes.html的访问(即无论是名为bob的文件还是名为bob的目录下的文件都不允许搜索引擎访问)。Disallow记录如果留空,则说明该网站的所有部分都向搜索引擎开放。
空格 & 注释
  在robots.txt文件中,凡以"#"开头的行,均被视为注解内容,这和UNIX中的惯例是一样的。但大家需要注意两个问题:
  1) RES标准允许将注解内容放在指示行的末尾,但这种格式并不是所有的Spiders都能够支持。譬如,并不是所有的Spiders都能够正确理解"Disallow: bob #comment"这样一条指令。有的Spiders就会误解为Disallow的是"bob#comment"。最好的办法是使注解自成一行。
  2) RES标准允许在一个指令行的开头存在空格,象"Disallow: bob #comment",但我们也并不建议大家这么做。
Robots.txt文件的创建:
  需要注意的是,应当在UNIX命令行终端模式下创建Robots.txt纯文本文件。好的文本编辑器一般都能够提供UNIX模式功能,或者你的FTP客户端软件也“应该”能够替你转换过来。如果你试图用一个没有提供文本编辑模式的HTML编辑器来生成你的robots.txt纯文本文件,那你可就是瞎子打蚊子――白费力气了。
对RES标准的扩展:
  尽管已经提出了一些扩展标准,如Allow行或Robot版本控制(例如应该忽略大小写和版本号),但尚未得到RES工作组的正式批准认可。
附录I. Robots.txt用法举例:
  使用通配符"*",可设置对所有robot的访问权限。
  User-agent: *
  Disallow:
  表明:允许所有搜索引擎访问网站下的所有内容。
  User-agent: *
  Disallow: /
  表明:禁止所有搜索引擎对网站下所有网页的访问。
  User-agent: *
  Disallow: /cgi-bin/Disallow: /images/
  表明:禁止所有搜索引擎进入网站的cgi-bin和images目录及其下所有子目录。需要注意的是对每一个目录必须分开声明。
  User-agent: Roverdog
  Disallow: /
  表明:禁止Roverdog访问网站上的任何文件。
  User-agent: Googlebot
Disallow: cheese.htm
  表明:禁止Google的Googlebot访问其网站下的cheese.htm文件。
  上面介绍了一些简单的设置,对于比较复杂的设置,可参看一些大型站点如CNN或Looksmart的robots.txt文件(www.cnn.com/robots.txt, www.looksmart.com/robots.txt)






B2层 发表时间: 04-06-03 12:43

回复: BrideX [bridex]   论坛用户   登录
November 09, 2003
robots.txt和Robots META标签

作者:平文胜



我们知道,搜索引擎都有自己的“搜索机器人”(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库。 对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开。为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签。



一、 robots.txt



1、 什么是robots.txt?



robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。



当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。



robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。



网站 URL
相应的 robots.txt的 URL




http://www.w3.org/
http://www.w3.org/ robots.txt
http://www.w3.org:80/ http://www.w3.org:80/ robots.txt
http://www.w3.org:1234/
http://www.w3.org:1234/ robots.txt
http://w3.org/ http://w3.org/ robots.txt


2、 robots.txt的语法



"robots.txt"文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:



    "<field>:<optionalspace><value><optionalspace>"。



在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:



User-agent:



该项的值用于描述搜索引擎robot的名字,在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在"robots.txt"文件中, "User-agent:*"这样的记录只能有一条。



Disallow :



该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow 开头的URL均不会被robot访问到。例如"Disallow: /help"对/help.html 和/help/index.html都不允许搜索引擎访问,而"Disallow: /help/"则允许robot访问/help.html,而不能访问/help/index.html。



任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在"/robots.txt"文件中,至少要有一条Disallow记录。如果 "/robots.txt"是一个空文件,则对于所有的搜索引擎robot,该网站都是开放的。



下面是一些robots.txt基本的用法:



l 禁止所有搜索引擎访问网站的任何部分:
User-agent: *
Disallow: /



l 允许所有的robot访问
User-agent: *
Disallow:
或者也可以建一个空文件 "/robots.txt" file



l 禁止所有搜索引擎访问网站的几个部分(下例中的cgi-bin、tmp、private目录)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/



l 禁止某个搜索引擎的访问(下例中的BadBot)
User-agent: BadBot
Disallow: /



l 只允许某个搜索引擎的访问(下例中的WebCrawler)
User-agent: WebCrawler
Disallow:



User-agent: *
Disallow: /



3、 常见搜索引擎机器人Robots名字



名称 搜索引擎





Baiduspider http://www.baidu.com

Scooter http://www.altavista.com

ia_archiver http://www.alexa.com

Googlebot http://www.google.com

FAST-WebCrawler http://www.alltheweb.com

Slurp http://www.inktomi.com

MSNBOT http://search.msn.com


4、 robots.txt举例



下面是一些著名站点的robots.txt:




http://www.cnn.com/robots.txt
http://www.google.com/robots.txt
http://www.ibm.com/robots.txt
http://www.sun.com/robots.txt
http://www.eachnet.com/robots.txt


5、 常见robots.txt错误



l 颠倒了顺序:
错误写成
User-agent: *
Disallow: GoogleBot



正确的应该是:
User-agent: GoogleBot
Disallow: *



l 把多个禁止命令放在一行中:
例如,错误地写成
Disallow: /css/ /cgi-bin/ /images/



正确的应该是
Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/



l 行前有大量空格
例如写成
Disallow: /cgi-bin/
尽管在标准没有谈到这个,但是这种方式很容易出问题。



l 404重定向到另外一个页面:
当Robot访问很多没有设置robots.txt文件的站点时,会被自动404重定向到另外一个Html页面。这时Robot常常会以处理robots.txt文件的方式处理这个Html页面文件。虽然一般这样没有什么问题,但是最好能放一个空白的robots.txt文件在站点根目录下。



l 采用大写。例如
USER-AGENT: EXCITE
DISALLOW:
虽然标准是没有大小写的,但是目录和文件名应该小写:
user-agent:GoogleBot
disallow:



l 语法中只有Disallow,没有Allow!
错误的写法是:
User-agent: Baiduspider
Disallow: /john/
allow: /jane/



l 忘记了斜杠/
错误的写做:
User-agent: Baiduspider
Disallow: css



正确的应该是
User-agent: Baiduspider
Disallow: /css/



下面一个小工具专门检查robots.txt文件的有效性:


http://www.searchengineworld.com/cgi-bin/robotcheck.cgi



二、 Robots META标签



1、什么是Robots META标签



Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况,而Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的<head></head>中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。具体的形式类似(见黑体部分):



<html>



<head>



<title>时代营销--网络营销专业门户</title>



<meta name="Robots" content="index,follow">



<meta http-equiv="Content-Type" CONTENT="text/html; charset=gb2312">



<meta name="keywords" content="营销… ">



<meta name="description" content="时代营销网是…">



<link rel="stylesheet" href="/public/css.css" type="text/css">



</head>



<body>







</body>



</html>



2、Robots META标签的写法:



Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。



INDEX 指令告诉搜索机器人抓取该页面;



FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;



Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。



这样,一共有四种组合:



<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">



<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">



<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">



<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">



其中



<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以写成



<META NAME="ROBOTS" CONTENT="ALL">;



<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以写成



<META NAME="ROBOTS" CONTENT="NONE">



要注意的是:上述的robots.txt和Robots META标签限制搜索引擎机器人(ROBOTS)抓取站点内容的办法只是一种规则,需要搜索引擎机器人的配合才行,并不是每个ROBOTS都遵守的。



目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。例如:



<META NAME="googlebot" CONTENT="index,follow,noarchive">



表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照





B3层 发表时间: 04-06-03 12:46

回复: BrideX [bridex]   论坛用户   登录
http://www.yesky.com/SoftChannel/72356686970486784/20040224/1771222_1.shtml


Web服务器记录中查找黑客踪迹
摘要:本文主要讲述如何分析Web服务器记录,在众多记录里查找黑客攻击的蛛丝马迹,并针对当今流行的两类Web服务器给出具体的一些实例。

  关键词:Web服务器,IIS,Apache,logging记录

  现今的网络,安全越来越受到大家的重视,在构建网络安全环境时,在技术手段,管理制度等方面都逐步加强,设置防火墙,安装入侵检测系统等等。但网络安全是个全方位的问题,忽略哪一点都会造成木桶效应,使得整个安全系统虚设。本文从分析Web服务器的logging记录来找出漏洞,防范攻击,从而加强Web服务器安全。

  Web服务是Internet所提供最多,最丰富的服务,各种Web服务器自然也是受到攻击最多的,我们采用了很多措施来防止遭受攻击和入侵,其中查看Web服务器的记录是最直接,最常用,又比较有效的一种方法,但logging记录很庞大,查看logging记录是很繁琐的事情,如果抓不住重点,攻击线索就容易被忽略。下面就对最流行的两类Web服务器:Apache和IIS做攻击的实验,然后在众多的记录中查到攻击的蛛丝马迹,从而采取适当的措施加强防范。

  1.默认的web记录

  对于IIS,其默认记录存放在c:\winnt\system32\logfiles\w3svc1,文件名就是当天的日期,记录格式是标准的W3C扩展记录格式,可以被各种记录分析工具解析,默认的格式包括时间、访问者IP地址、访问的方法(GET or POST…)、请求的资源、HTTP状态(用数字表示)等。对于其中的HTTP状态,我们知道200-299表明访问成功;300-399表明需要客户端反应来满足请求;400-499和500-599表明客户端和服务器出错;其中常用的如404表示资源没找到,403表示访问被禁止。

  Apache的默认记录存放在/usr/local/apache/logs,其中最有用的记录文件是access_log,其格式包括客户端IP、个人标示(一般为空)、用户名(如果需要认证)、访问方式(GET or POST…)、HTTP状态、传输的字节数等。

  2.收集信息

  我们模拟黑客攻击服务器的通常模式,先是收集信息,然后通过远程命令一步步实施入侵。我们使用的工具是netcat1.1 for windows,Web服务器ip为10.22.1.100,客户端IP为:10.22.1.80。

  C:>nc -n 10.22.1.100 80

  HEAD / HTTP/1.0

  HTTP/1.1 200 OK

  Server: Microsoft-IIS/4.0

  Date: Sun, 08 Oct 2002 14:31:00 GMT

  Content-Type: text/html

  Set-Cookie: ASPSESSIONIDGQQQQQPA=IHOJAGJDECOLLGIBNKMCEEED; path=/

  Cache-control: private

  在IIS和Apache的log里显示如下:

  IIS: 15:08:44 10.22.1.80 HEAD /Default.asp 200

  Linux: 10.22.1.80- - [08/Oct/2002:15:56:39 -0700] "HEAD / HTTP/1.0" 200 0

  以上的活动看上去很正常,也不会对服务器产生任何影响,但这是通常攻击的前奏。

  3. Web站点镜像

  黑客经常镜像一个站点来帮助攻击服务器,常用来镜像的工具有Windows下的Teleport pro和Unix下的Wget。

  下面我们看使用这两个工具后在服务器记录里的信息:

  16:28:52 10.22.1.80 GET /Default.asp 200

  16:28:52 10.22.1.80 GET /robots.txt 404

  16:28:52 10.22.1.80 GET /header_protecting_your_privacy.gif 200

  16:28:52 10.22.1.80 GET /header_fec_reqs.gif 200

  16:28:55 10.22.1.80 GET /photo_contribs_sidebar.jpg 200

  16:28:55 10.22.1.80 GET /g2klogo_white_bgd.gif 200

  16:28:55 10.22.1.80 GET /header_contribute_on_line.gif 200

  16:49:01 10.22.1.81 GET /Default.asp 200

  16:49:01 10.22.1.81 GET /robots.txt 404

  16:49:01 10.22.1.81 GET /header_contribute_on_line.gif 200

  16:49:01 10.22.1.81 GET /g2klogo_white_bgd.gif 200

  16:49:01 10.22.1.81 GET /photo_contribs_sidebar.jpg 200

  16:49:01 10.22.1.81 GET /header_fec_reqs.gif 200

  16:49:01 10.22.1.81 GET /header_protecting_your_privacy.gif 200

  10.22.1.80是使用Wget的Unix客户端,10.22.1.81是使用Teleport pro的Windows客户端,都请求robots.txt文件,Robots.txt是请求没有被镜像的文件时所要用到的。所以看到有对robots.txt文件的请求,表明有镜像的企图。当然,在Wget和Teleport pro客户端,可以手工禁止对robots.txt文件的访问,这时,辨别方法可以看是否有从同一IP地址来的重复资源请求。

  4.漏洞扫描

  随着攻击的发展,我们可以用一些Web漏洞检查的软件,如Whisker,它可以检查已知晓的各种漏洞,如cgi程序导致的安全隐患等。下面是运行Whisker1.4的IIS和Apache的相关记录:

  IIS

  12:07:56 10.22.1.81 GET /SiteServer/Publishing/viewcode.asp 404

  12:07:56 10.22.1.81 GET /msadc/samples/adctest.asp 200

  12:07:56 10.22.1.81 GET /advworks/equipment/catalog_type.asp 404

  12:07:56 10.22.1.81 GET /iisadmpwd/aexp4b.htr 200

  12:07:56 10.22.1.81 HEAD /scripts/samples/details.idc 200

  12:07:56 10.22.1.81 GET /scripts/samples/details.idc 200

  12:07:56 10.22.1.81 HEAD /scripts/samples/ctguestb.idc 200

  12:07:56 10.22.1.81 GET /scripts/samples/ctguestb.idc 200

  12:07:56 10.22.1.81 HEAD /scripts/tools/newdsn.exe 404

  12:07:56 10.22.1.81 HEAD /msadc/msadcs.dll 200

  12:07:56 10.22.1.81 GET /scripts/iisadmin/bdir.htr 200

  12:07:56 10.22.1.81 HEAD /carbo.dll 404

  12:07:56 10.22.1.81 HEAD /scripts/proxy/ 403

  12:07:56 10.22.1.81 HEAD /scripts/proxy/w3proxy.dll 500

  12:07:56 10.22.1.81 GET /scripts/proxy/w3proxy.dll 500

  Apache

  10.22.1.80-[08/Oct/2002:12:57:28 -0700] "GET /cfcache.map HTTP/1.0" 404 266

  10.22.1.80-[08/Oct/2002:12:57:28 -0700] "GET /cfide/Administrator/startstop.html HTTP/1.0" 404 289

  10.22.1.80-[08/Oct/2002:12:57:28 -0700] "GET /cfappman/index.cfm HTTP/1.0" 404 273

  10.22.1.80-[08/Oct/2002:12:57:28 -0700] "GET /cgi-bin/ HTTP/1.0" 403 267

  10.22.1.80-[08/Oct/2002:12:57:29 -0700] "GET /cgi-bin/dbmlparser.exe HTTP/1.0" 404 277

  10.22.1.80-[08/Oct/2002:12:57:29 -0700] "HEAD /_vti_inf.html HTTP/1.0" 404 0

  10.22.1.80-[08/Oct/2002:12:57:29 -0700] "HEAD /_vti_pvt/ HTTP/1.0" 404 0

  10.22.1.80-[08/Oct/2002:12:57:29 -0700] "HEAD /cgi-bin/webdist.cgi HTTP/1.0" 404 0

  10.22.1.80-[08/Oct/2002:12:57:29 -0700] "HEAD /cgi-bin/handler HTTP/1.0" 404 0

  10.22.1.80-[08/Oct/2002:12:57:29 -0700] "HEAD /cgi-bin/wrap HTTP/1.0" 404 0

  10.22.1.80-[08/Oct/2002:12:57:29 -0700] "HEAD /cgi-bin/pfdisplay.cgi HTTP/1.0" 404

  检查这种攻击的关键是看同一IP地址对cgi目录(IIS是scripts,Apache是cgi-bin)文件请求出现多个404状态。这时就要检查相应cgi目录里的程序安全性。

  5.远程攻击

  下面我们以针对IIS的MDAC攻击为例,来了解远程攻击在log里的记录情况。MDAC漏洞使得攻击者可以在Web服务器端执行任何命令。

  17:48:49 10.22.1.80 GET /msadc/msadcs.dll 200

  17:48:51 10.22.1.80 POST /msadc/msadcs.dll 200

  当攻击发生后,在log会留下对msadcs.dll请求的记录。

  另一个有名的攻击是asp源代码泄漏的漏洞,当这种攻击发生时,log文件会有如下记录:

  17:50:13 10.22.1.81 GET /default.asp+.htr 200

  对于未授权访问的攻击记录,Apache log会显示:

  [08/Oct/2002:18:58:29 -0700] "GET /private/ HTTP/1.0" 401 462

  6.总结

  管理一个安全站点要求系统管理人员具备安全的常识和警惕性,从不同的渠道了解安全的知识不仅能对付已发生的攻击,还能对将会发生的攻击做到较好的防范。而通过Log文件来了解、防范攻击是很重要但又经常容易忽略的手段。

  IDS(入侵检测系统)能帮助你很多,但不能完全代替安全管理。仔细检查Log,IDS所遗漏的东西,就可能在这里发现。


[此贴被 BrideX(bridex) 在 06月03日12时51分 编辑过]

B4层 发表时间: 04-06-03 12:49

回复: BrideX [bridex]   论坛用户   登录
入侵者有他们自己的搜索引擎,可以绕过“禁用引擎”的设置,仍然可以找到那些带有密码的敏感文档和存在漏洞的CGI程序,而且如果网站使用了robots.txt,就等于告诉大家其中是敏感数
                                            ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
据,所以才要求不要加入到索引中。
~~  

B5层 发表时间: 04-06-03 12:53

论坛: UNIX系统

20CN网络安全小组版权所有
Copyright © 2000-2010 20CN Security Group. All Rights Reserved.
论坛程序编写:NetDemon

粤ICP备05087286号