20CN网络安全小组论坛 - UNIX系统 - 寻问UNIX系统robots漏洞

论坛: UNIX系统标题: 寻问UNIX系统robots漏洞

复制本贴地址

作者: BrideX [bridex]

论坛用户

robots.txt

请问这个漏洞有什么危险么?

以及怎么防范该漏洞啊?

[此贴被 BrideX(bridex) 在 06月02日21时50分编辑过]

地主发表时间: 04-06-02 21:49

回复: BrideX [bridex]

论坛用户

#
# robots.txt for http://www.w3.org/
#
# $Id: robots.txt,v 1.25 2004/04/21 07:42:41 dom Exp $
#

# For use by search.w3.org
User-agent: W3Crobot/1
Disallow: /Out-Of-Date

# AltaVista Search
User-agent: AltaVista Intranet V2.0 W3C Webreq
Disallow: /Out-Of-Date

# exclude some access-controlled areas
User-agent: *
Disallow: /Team
Disallow: /Project
Disallow: /Systems
Disallow: /Web
Disallow: /History
Disallow: /Out-Of-Date
Disallow: /2002/02/mid
Disallow: /mid/
Disallow: /People/all/
Disallow: /People/all/
Disallow: /2003/03/Translations/byLanguage
Disallow: /2003/03/Translations/byTechnology

User-Agent: W3C-checklink
Disallow:

B1层发表时间: 04-06-03 12:42

回复: BrideX [bridex]

论坛用户

Robots.txt指南

当搜索引擎访问一个网站时，它首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。Robots.txt文件用于限定搜索引擎对其网站的访问范围，即告诉搜索引擎网站中哪些文件是允许它进行检索(下载)的。这就是大家在网络上常看到的“拒绝Robots访问标准”(Robots Exclusion Standard)。下面我们简称RES。 Robots.txt文件的格式：Robots.txt文件的格式比较特殊，它由记录组成。这些记录通过空行分开。其中每条记录均由两个域组成：
　　1) 一个User-Agent(用户代理)字符串行；
　　2) 若干Disallow字符串行。
　　记录格式为：<Field> ":" <value>
　　下面我们分别对这两个域做进一步说明。
User-agent(用户代理)：
　　User-agent行(用户代理行) 用于指定搜索引擎robot的名字，以Google的检索程序Googlebot为例，有：User-agent: Googlebot
　　一个robots.txt中至少要有一条User-agent记录。如果有多条User-agent记录，则说明有多个robot会受到RES标准的限制。当然了，如果要指定所有的robot，只需用一个通配符"*"就搞定了，即：User-agent: *
Disallow(拒绝访问声明)：
　　在Robots.txt文件中，每条记录的第二个域是Disallow:指令行。这些Disallow行声明了该网站中不希望被访问的文件和(或)目录。例如"Disallow: email.htm"对文件的访问进行了声明，禁止Spiders下载网站上的email.htm文件。而"Disallow: /cgi-bin/"则对cgi-bin目录的访问进行了声明，拒绝Spiders进入该目录及其子目录。Disallow声明行还具有通配符功能。例如上例中"Disallow: /cgi-bin/"声明了拒绝搜索引擎对cgi-bin目录及其子目录的访问，而"Disallow:/bob"则拒绝搜索引擎对/bob.html和/bob/indes.html的访问(即无论是名为bob的文件还是名为bob的目录下的文件都不允许搜索引擎访问)。Disallow记录如果留空，则说明该网站的所有部分都向搜索引擎开放。
空格 & 注释
　　在robots.txt文件中，凡以"#"开头的行，均被视为注解内容，这和UNIX中的惯例是一样的。但大家需要注意两个问题：
　　1) RES标准允许将注解内容放在指示行的末尾，但这种格式并不是所有的Spiders都能够支持。譬如，并不是所有的Spiders都能够正确理解"Disallow: bob #comment"这样一条指令。有的Spiders就会误解为Disallow的是"bob#comment"。最好的办法是使注解自成一行。
　　2) RES标准允许在一个指令行的开头存在空格，象"Disallow: bob #comment"，但我们也并不建议大家这么做。
Robots.txt文件的创建：
　　需要注意的是，应当在UNIX命令行终端模式下创建Robots.txt纯文本文件。好的文本编辑器一般都能够提供UNIX模式功能，或者你的FTP客户端软件也“应该”能够替你转换过来。如果你试图用一个没有提供文本编辑模式的HTML编辑器来生成你的robots.txt纯文本文件，那你可就是瞎子打蚊子――白费力气了。
对RES标准的扩展：
　　尽管已经提出了一些扩展标准，如Allow行或Robot版本控制(例如应该忽略大小写和版本号)，但尚未得到RES工作组的正式批准认可。
附录I. Robots.txt用法举例：
　　使用通配符"*"，可设置对所有robot的访问权限。
　　User-agent: *
　　Disallow:
　　表明：允许所有搜索引擎访问网站下的所有内容。
　　User-agent: *
　　Disallow: /
　　表明：禁止所有搜索引擎对网站下所有网页的访问。
　　User-agent: *
　　Disallow: /cgi-bin/Disallow: /images/
　　表明：禁止所有搜索引擎进入网站的cgi-bin和images目录及其下所有子目录。需要注意的是对每一个目录必须分开声明。
　　User-agent: Roverdog
　　Disallow: /
　　表明：禁止Roverdog访问网站上的任何文件。
　　User-agent: Googlebot
Disallow: cheese.htm
　　表明：禁止Google的Googlebot访问其网站下的cheese.htm文件。
　　上面介绍了一些简单的设置，对于比较复杂的设置，可参看一些大型站点如CNN或Looksmart的robots.txt文件(www.cnn.com/robots.txt, www.looksmart.com/robots.txt)

B2层发表时间: 04-06-03 12:43

回复: BrideX [bridex]

论坛用户

November 09, 2003
robots.txt和Robots META标签

作者:平文胜

我们知道，搜索引擎都有自己的“搜索机器人”（ROBOTS），并通过这些ROBOTS在网络上沿着网页上的链接（一般是http和src链接）不断抓取资料建立自己的数据库。对于网站管理者和内容提供者来说，有时候会有一些站点内容，不希望被ROBOTS抓取而公开。为了解决这个问题，ROBOTS开发界提供了两个办法：一个是robots.txt，另一个是The Robots META标签。

一、 robots.txt

1、什么是robots.txt？

robots.txt是一个纯文本文件，通过在这个文件中声明该网站中不想被robots访问的部分，这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录指定的内容。

当一个搜索机器人访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果找到，搜索机器人就会按照该文件中的内容来确定访问的范围，如果该文件不存在，那么搜索机器人就沿着链接抓取。

robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。

网站 URL
相应的 robots.txt的 URL

http://www.w3.org/
http://www.w3.org/ robots.txt
http://www.w3.org:80/ http://www.w3.org:80/ robots.txt
http://www.w3.org:1234/
http://www.w3.org:1234/ robots.txt
http://w3.org/ http://w3.org/ robots.txt

2、 robots.txt的语法

"robots.txt"文件包含一条或更多的记录，这些记录通过空行分开（以CR,CR/NL, or NL作为结束符），每一条记录的格式如下所示：

　　　　"<field>:<optionalspace><value><optionalspace>"。

在该文件中可以使用#进行注解，具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始，后面加上若干Disallow行,详细情况如下：

User-agent:

该项的值用于描述搜索引擎robot的名字，在"robots.txt"文件中，如果有多条User-agent记录说明有多个robot会受到该协议的限制，对该文件来说，至少要有一条User-agent记录。如果该项的值设为*，则该协议对任何机器人均有效，在"robots.txt"文件中， "User-agent：*"这样的记录只能有一条。

Disallow :

该项的值用于描述不希望被访问到的一个URL，这个URL可以是一条完整的路径，也可以是部分的，任何以Disallow 开头的URL均不会被robot访问到。例如"Disallow: /help"对/help.html 和/help/index.html都不允许搜索引擎访问，而"Disallow: /help/"则允许robot访问/help.html，而不能访问/help/index.html。

任何一条Disallow记录为空，说明该网站的所有部分都允许被访问，在"/robots.txt"文件中，至少要有一条Disallow记录。如果 "/robots.txt"是一个空文件，则对于所有的搜索引擎robot，该网站都是开放的。

下面是一些robots.txt基本的用法：

l 禁止所有搜索引擎访问网站的任何部分：
User-agent: *
Disallow: /

l 允许所有的robot访问
User-agent: *
Disallow:
或者也可以建一个空文件 "/robots.txt" file

l 禁止所有搜索引擎访问网站的几个部分（下例中的cgi-bin、tmp、private目录）
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/

l 禁止某个搜索引擎的访问（下例中的BadBot）
User-agent: BadBot
Disallow: /

l 只允许某个搜索引擎的访问（下例中的WebCrawler）
User-agent: WebCrawler
Disallow:

User-agent: *
Disallow: /

3、常见搜索引擎机器人Robots名字

名称搜索引擎

Baiduspider http://www.baidu.com

Scooter http://www.altavista.com

ia_archiver http://www.alexa.com

Googlebot http://www.google.com

FAST-WebCrawler http://www.alltheweb.com

Slurp http://www.inktomi.com

MSNBOT http://search.msn.com

4、 robots.txt举例

下面是一些著名站点的robots.txt：

http://www.cnn.com/robots.txt
http://www.google.com/robots.txt
http://www.ibm.com/robots.txt
http://www.sun.com/robots.txt
http://www.eachnet.com/robots.txt

5、常见robots.txt错误

l 颠倒了顺序：
错误写成
User-agent: *
Disallow: GoogleBot

正确的应该是：
User-agent: GoogleBot
Disallow: *

l 把多个禁止命令放在一行中：
例如，错误地写成
Disallow: /css/ /cgi-bin/ /images/

正确的应该是
Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/

l 行前有大量空格
例如写成
Disallow: /cgi-bin/
尽管在标准没有谈到这个，但是这种方式很容易出问题。

l 404重定向到另外一个页面：
当Robot访问很多没有设置robots.txt文件的站点时，会被自动404重定向到另外一个Html页面。这时Robot常常会以处理robots.txt文件的方式处理这个Html页面文件。虽然一般这样没有什么问题，但是最好能放一个空白的robots.txt文件在站点根目录下。

l 采用大写。例如
USER-AGENT: EXCITE
DISALLOW:
虽然标准是没有大小写的，但是目录和文件名应该小写：
user-agent:GoogleBot
disallow:

l 语法中只有Disallow，没有Allow！
错误的写法是：
User-agent: Baiduspider
Disallow: /john/
allow: /jane/

l 忘记了斜杠/
错误的写做：
User-agent: Baiduspider
Disallow: css

正确的应该是
User-agent: Baiduspider
Disallow: /css/

下面一个小工具专门检查robots.txt文件的有效性：

http://www.searchengineworld.com/cgi-bin/robotcheck.cgi

二、 Robots META标签

1、什么是Robots META标签

Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况，而Robots META标签则主要是针对一个个具体的页面。和其他的META标签（如使用的语言、页面的描述、关键词等）一样，Robots META标签也是放在页面的<head></head>中，专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。具体的形式类似（见黑体部分）：

<html>

<head>

<title>时代营销--网络营销专业门户</title>

<meta name="Robots" content="index,follow">

<meta http-equiv="Content-Type" CONTENT="text/html; charset=gb2312">

<meta name="keywords" content="营销… ">

<meta name="description" content="时代营销网是…">

<link rel="stylesheet" href="/public/css.css" type="text/css">

</head>

<body>

…

</body>

</html>

2、Robots META标签的写法：

Robots META标签中没有大小写之分，name=”Robots”表示所有的搜索引擎，可以针对某个具体搜索引擎写为name=”BaiduSpider”。content部分有四个指令选项：index、noindex、follow、nofollow，指令间以“,”分隔。

INDEX 指令告诉搜索机器人抓取该页面；

FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去；

Robots Meta标签的缺省值是INDEX和FOLLOW，只有inktomi除外，对于它，缺省值是INDEX,NOFOLLOW。

这样，一共有四种组合：

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">

<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">

<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">

其中

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以写成

<META NAME="ROBOTS" CONTENT="ALL">；

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以写成

<META NAME="ROBOTS" CONTENT="NONE">

要注意的是：上述的robots.txt和Robots META标签限制搜索引擎机器人（ROBOTS）抓取站点内容的办法只是一种规则，需要搜索引擎机器人的配合才行，并不是每个ROBOTS都遵守的。

目前看来，绝大多数的搜索引擎机器人都遵守robots.txt的规则，而对于Robots META标签，目前支持的并不多，但是正在逐渐增加，如著名搜索引擎GOOGLE就完全支持，而且GOOGLE还增加了一个指令“archive”，可以限制GOOGLE是否保留网页快照。例如：

<META NAME="googlebot" CONTENT="index,follow,noarchive">

表示抓取该站点中页面并沿着页面中链接抓取，但是不在GOOLGE上保留该页面的网页快照

B3层发表时间: 04-06-03 12:46

回复: BrideX [bridex]

论坛用户

http://www.yesky.com/SoftChannel/72356686970486784/20040224/1771222_1.shtml

Web服务器记录中查找黑客踪迹
摘要：本文主要讲述如何分析Web服务器记录，在众多记录里查找黑客攻击的蛛丝马迹，并针对当今流行的两类Web服务器给出具体的一些实例。

　　关键词：Web服务器，IIS，Apache，logging记录

　　现今的网络，安全越来越受到大家的重视，在构建网络安全环境时，在技术手段，管理制度等方面都逐步加强，设置防火墙，安装入侵检测系统等等。但网络安全是个全方位的问题，忽略哪一点都会造成木桶效应，使得整个安全系统虚设。本文从分析Web服务器的logging记录来找出漏洞，防范攻击，从而加强Web服务器安全。

　　Web服务是Internet所提供最多，最丰富的服务，各种Web服务器自然也是受到攻击最多的，我们采用了很多措施来防止遭受攻击和入侵，其中查看Web服务器的记录是最直接，最常用，又比较有效的一种方法，但logging记录很庞大，查看logging记录是很繁琐的事情，如果抓不住重点，攻击线索就容易被忽略。下面就对最流行的两类Web服务器：Apache和IIS做攻击的实验，然后在众多的记录中查到攻击的蛛丝马迹，从而采取适当的措施加强防范。

　　1.默认的web记录

　　对于IIS，其默认记录存放在c:\winnt\system32\logfiles\w3svc1，文件名就是当天的日期，记录格式是标准的W3C扩展记录格式，可以被各种记录分析工具解析，默认的格式包括时间、访问者IP地址、访问的方法(GET or POST…)、请求的资源、HTTP状态(用数字表示)等。对于其中的HTTP状态，我们知道200-299表明访问成功；300-399表明需要客户端反应来满足请求；400-499和500-599表明客户端和服务器出错；其中常用的如404表示资源没找到，403表示访问被禁止。

　　Apache的默认记录存放在/usr/local/apache/logs，其中最有用的记录文件是access_log，其格式包括客户端IP、个人标示(一般为空)、用户名(如果需要认证)、访问方式(GET or POST…)、HTTP状态、传输的字节数等。

　　2.收集信息

　　我们模拟黑客攻击服务器的通常模式，先是收集信息，然后通过远程命令一步步实施入侵。我们使用的工具是netcat1.1 for windows，Web服务器ip为10.22.1.100，客户端IP为：10.22.1.80。

　　C:>nc -n 10.22.1.100 80

　　HEAD / HTTP/1.0

　　HTTP/1.1 200 OK

　　Server: Microsoft-IIS/4.0

　　Date: Sun, 08 Oct 2002 14:31:00 GMT

　　Content-Type: text/html

　　Set-Cookie: ASPSESSIONIDGQQQQQPA=IHOJAGJDECOLLGIBNKMCEEED; path=/

　　Cache-control: private

　　在IIS和Apache的log里显示如下：

　　IIS: 15:08:44 10.22.1.80 HEAD /Default.asp 200

　　Linux: 10.22.1.80- - [08/Oct/2002:15:56:39 -0700] "HEAD / HTTP/1.0" 200 0

　　以上的活动看上去很正常，也不会对服务器产生任何影响，但这是通常攻击的前奏。

　　3. Web站点镜像

　　黑客经常镜像一个站点来帮助攻击服务器，常用来镜像的工具有Windows下的Teleport pro和Unix下的Wget。

　　下面我们看使用这两个工具后在服务器记录里的信息：

　　16:28:52 10.22.1.80 GET /Default.asp 200

　　16:28:52 10.22.1.80 GET /robots.txt 404

　　16:28:52 10.22.1.80 GET /header_protecting_your_privacy.gif 200

　　16:28:52 10.22.1.80 GET /header_fec_reqs.gif 200

　　16:28:55 10.22.1.80 GET /photo_contribs_sidebar.jpg 200

　　16:28:55 10.22.1.80 GET /g2klogo_white_bgd.gif 200

　　16:28:55 10.22.1.80 GET /header_contribute_on_line.gif 200

　　16:49:01 10.22.1.81 GET /Default.asp 200

　　16:49:01 10.22.1.81 GET /robots.txt 404

　　16:49:01 10.22.1.81 GET /header_contribute_on_line.gif 200

　　16:49:01 10.22.1.81 GET /g2klogo_white_bgd.gif 200

　　16:49:01 10.22.1.81 GET /photo_contribs_sidebar.jpg 200

　　16:49:01 10.22.1.81 GET /header_fec_reqs.gif 200

　　16:49:01 10.22.1.81 GET /header_protecting_your_privacy.gif 200

　　10.22.1.80是使用Wget的Unix客户端，10.22.1.81是使用Teleport pro的Windows客户端，都请求robots.txt文件，Robots.txt是请求没有被镜像的文件时所要用到的。所以看到有对robots.txt文件的请求，表明有镜像的企图。当然，在Wget和Teleport pro客户端，可以手工禁止对robots.txt文件的访问，这时，辨别方法可以看是否有从同一IP地址来的重复资源请求。

　　4.漏洞扫描

　　随着攻击的发展，我们可以用一些Web漏洞检查的软件，如Whisker，它可以检查已知晓的各种漏洞，如cgi程序导致的安全隐患等。下面是运行Whisker1.4的IIS和Apache的相关记录：

　　IIS

　　12:07:56 10.22.1.81 GET /SiteServer/Publishing/viewcode.asp 404

　　12:07:56 10.22.1.81 GET /msadc/samples/adctest.asp 200

　　12:07:56 10.22.1.81 GET /advworks/equipment/catalog_type.asp 404

　　12:07:56 10.22.1.81 GET /iisadmpwd/aexp4b.htr 200

　　12:07:56 10.22.1.81 HEAD /scripts/samples/details.idc 200

　　12:07:56 10.22.1.81 GET /scripts/samples/details.idc 200

　　12:07:56 10.22.1.81 HEAD /scripts/samples/ctguestb.idc 200

　　12:07:56 10.22.1.81 GET /scripts/samples/ctguestb.idc 200

　　12:07:56 10.22.1.81 HEAD /scripts/tools/newdsn.exe 404

　　12:07:56 10.22.1.81 HEAD /msadc/msadcs.dll 200

　　12:07:56 10.22.1.81 GET /scripts/iisadmin/bdir.htr 200

　　12:07:56 10.22.1.81 HEAD /carbo.dll 404

　　12:07:56 10.22.1.81 HEAD /scripts/proxy/ 403

　　12:07:56 10.22.1.81 HEAD /scripts/proxy/w3proxy.dll 500

　　12:07:56 10.22.1.81 GET /scripts/proxy/w3proxy.dll 500

　　Apache

　　10.22.1.80-[08/Oct/2002:12:57:28 -0700] "GET /cfcache.map HTTP/1.0" 404 266

　　10.22.1.80-[08/Oct/2002:12:57:28 -0700] "GET /cfide/Administrator/startstop.html HTTP/1.0" 404 289

　　10.22.1.80-[08/Oct/2002:12:57:28 -0700] "GET /cfappman/index.cfm HTTP/1.0" 404 273

　　10.22.1.80-[08/Oct/2002:12:57:28 -0700] "GET /cgi-bin/ HTTP/1.0" 403 267

　　10.22.1.80-[08/Oct/2002:12:57:29 -0700] "GET /cgi-bin/dbmlparser.exe HTTP/1.0" 404 277

　　10.22.1.80-[08/Oct/2002:12:57:29 -0700] "HEAD /_vti_inf.html HTTP/1.0" 404 0

　　10.22.1.80-[08/Oct/2002:12:57:29 -0700] "HEAD /_vti_pvt/ HTTP/1.0" 404 0

　　10.22.1.80-[08/Oct/2002:12:57:29 -0700] "HEAD /cgi-bin/webdist.cgi HTTP/1.0" 404 0

　　10.22.1.80-[08/Oct/2002:12:57:29 -0700] "HEAD /cgi-bin/handler HTTP/1.0" 404 0

　　10.22.1.80-[08/Oct/2002:12:57:29 -0700] "HEAD /cgi-bin/wrap HTTP/1.0" 404 0

　　10.22.1.80-[08/Oct/2002:12:57:29 -0700] "HEAD /cgi-bin/pfdisplay.cgi HTTP/1.0" 404

　　检查这种攻击的关键是看同一IP地址对cgi目录(IIS是scripts，Apache是cgi-bin)文件请求出现多个404状态。这时就要检查相应cgi目录里的程序安全性。

　　5.远程攻击

　　下面我们以针对IIS的MDAC攻击为例，来了解远程攻击在log里的记录情况。MDAC漏洞使得攻击者可以在Web服务器端执行任何命令。

　　17:48:49 10.22.1.80 GET /msadc/msadcs.dll 200

　　17:48:51 10.22.1.80 POST /msadc/msadcs.dll 200

　　当攻击发生后，在log会留下对msadcs.dll请求的记录。

　　另一个有名的攻击是asp源代码泄漏的漏洞，当这种攻击发生时，log文件会有如下记录：

　　17:50:13 10.22.1.81 GET /default.asp+.htr 200

　　对于未授权访问的攻击记录，Apache log会显示：

　　[08/Oct/2002:18:58:29 -0700] "GET /private/ HTTP/1.0" 401 462

　　6.总结

　　管理一个安全站点要求系统管理人员具备安全的常识和警惕性，从不同的渠道了解安全的知识不仅能对付已发生的攻击，还能对将会发生的攻击做到较好的防范。而通过Log文件来了解、防范攻击是很重要但又经常容易忽略的手段。

　　IDS(入侵检测系统)能帮助你很多，但不能完全代替安全管理。仔细检查Log，IDS所遗漏的东西，就可能在这里发现。

[此贴被 BrideX(bridex) 在 06月03日12时51分编辑过]

B4层发表时间: 04-06-03 12:49

回复: BrideX [bridex]

论坛用户

入侵者有他们自己的搜索引擎，可以绕过“禁用引擎”的设置，仍然可以找到那些带有密码的敏感文档和存在漏洞的CGI程序，而且如果网站使用了robots.txt，就等于告诉大家其中是敏感数
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
据，所以才要求不要加入到索引中。
~~　　

B5层发表时间: 04-06-03 12:53

论坛: UNIX系统