论坛: 轻松一刻 标题: 惊天大秘密!!!!微软和联通有仇!!!【转载】 复制本贴地址    
作者: tabris17 [tabris17]    论坛用户   登录
打windows记事本-〉输入“联通”(没有引号),随便起个文件名---〉保存-〉关闭记事本


打开刚才保存的文本文件,你会看到。。。。。。。


本人已经证实,该现象存在于中文2000,2000 pro,2000 server ,xp系统。
希望大家踊跃试验。


原来"微软"和“联通”有仇!在输入“电信”“移动”等内容时,并无此现象。






地主 发表时间: 04-01-20 22:02

回复: lan [lan]   论坛用户   登录
楼主说的是真的,我顶一下。

B1层 发表时间: 04-01-20 22:31

回复: q70213526 [q70213526]   版主   登录
确实是的。D!!

B2层 发表时间: 04-01-20 22:45

回复: lazykid [lazykid]   论坛用户   登录
很早以前就听说过了,只能输“联通”两个字,再多个空格都不行。没什么价值阿~~~~~~

B3层 发表时间: 04-01-20 22:55

回复: moonbath [moonbath]   论坛用户   登录
ding

B4层 发表时间: 04-01-20 23:52

回复: ka [ka]   论坛用户   登录


B5层 发表时间: 04-01-21 00:14

回复: hudou [hudou]   论坛用户   登录


B6层 发表时间: 04-01-21 09:11

回复: abctm [abctm]   版主   登录


B7层 发表时间: 04-01-21 14:55

回复: gebishamo [gebishamo]   论坛用户   登录
到底是什么啊?
我的系统是98的,看不到啊!

B8层 发表时间: 04-01-21 15:52

回复: bedlamite [bedlamite]   版主   登录
还真怪了:


但用UltraEdit(版本10.00b)打开又是正常的:


B9层 发表时间: 04-01-21 15:55

回复: gebishamo [gebishamo]   论坛用户   登录
哦,原来变成一个小黑方块啊!

B10层 发表时间: 04-01-21 16:12

回复: tabris17 [tabris17]   论坛用户   登录
继续转贴答案


记事本的编码问题,当文档中所有字符都在 c0≤aa≤df 80≤bb≤bf 这个范围的时候,notepad都无法确认文档的格式,没有自动按照utf-8格式来""。 "联通"就是c1 aa cd a8,刚好在上面的范围内,所以不能正常显示。
在计算机中字符通常并不是保存为图像,每个字符都是使用一个编码来表示的,而每个字符究竟使用哪个编码代表,要取决于使用哪个字符集(charset)。

在最初的时候,internet上只有一种字符集――ansi的ascii字符集,它使用7 bits来表示一个字符,总共表示128个字符,其中包括了英文字母、数字、标点符号等常用字符。之后,又进行扩展,使用8 bits表示一个字符,可以表示256个字符,主要在原来的7 bits字符集的基础上加入了一些特殊符号例如制表符。

后来,由于各国语言的加入,ascii已经不能满足信息交流的需要,因此,为了能够表示其它国家的文字,各国在ascii的基础上制定了自己的字符集,这些从ansi标准派生的字符集被习惯的统称为ansi字符集,它们正式的名称应该是mbcs(multi-byte chactacter system,即多字节字符系统)。这些派生字符集的特点是以ascii 127 bits为基础,兼容ascii 127,他们使用大于128的编码作为一个leading byte,紧跟在leading byte后的第二(甚至第三)个字符与leading byte一起作为实际的编码。这样的字符集有很多,我们常见的gb-2312就是其中之一。

例如在gb-2312字符集中,“联通”的编码为c1 ac cd a8,其中c1和cd就是leading byte。前127个编码为标准ascii保留,例如“0”的编码是30h(30h表示十六进制的30)。软件在读取时,如果看到30h,知道它小于128就是标准ascii,表示“0”,看到c1大于128就知道它后面有一个另外的编码,因此c1 ac一同构成一个整个的编码,在gb-2312字符集中表示“连”。

由于每种语言都制定了自己的字符集,导致最后存在的各种字符集实在太多,在国际交流中要经常转换字符集非常不便。因此,提出了unicode字符集,它固定使用16 bits(两个字节、一个字)来表示一个字符,共可以表示65536个字符。将世界上几乎所有语言的常用字符收录其中,方便了信息交流。标准的unicode称为utf-16。后来为了双字节的unicode能够在现存的处理单字节的系统上正确传输,出现了utf-8,使用类似mbcs的方式对unicode进行编码。注意utf-8是编码,它属于unicode字符集。unicode字符集有多种编码形式,而ascii只有一种,大多数mbcs(包括gb-2312)也只有一种。

例如“联通”两个字的unicode标准编码utf-16 (big endian)为:de 8f 1a 90

而其utf-8编码为:e8 bf 9e e9 80 9a

最后,当一个软件打开一个文本时,它要做的第一件事是决定这个文本究竟是使用哪种字符集的哪种编码保存的。软件有三种途径来决定文本的字符集和编码:

最标准的途径是检测文本最开头的几个字节,如下表:

开头字节 charset/encoding

ef bb bf utf-8

fe ff utf-16/ucs-2, little endian

ff fe utf-16/ucs-2, big endian

ff fe 00 00 utf-32/ucs-4, little endian.

00 00 fe ff utf-32/ucs-4, big-endian.

例如插入标记后,联通”两个字的utf-16 (big endian)和utf-8码分别为:
ff fe de 8f 1a 90
ef bb bf e8 bf 9e e9 80 9a

但是mbcs文本没有这些位于开头的字符集标记,更不幸的是,一些早期的和一些设计不良的软件在保存unicode文本时不插入这些位于开头的字符集标记。因此,软件不能依赖于这种途径。这时,软件可以采取一种比较安全的方式来决定字符集及其编码,那就是弹出一个对话框来请示用户,例如将那个“联通”文件拖到ms word中,word就会弹出一个对话框。

如果软件不想麻烦用户,或者它不方便向用户请示,那它只能采取自己“猜”的方法,软件可以根据整个文本的特征来猜测它可能属于哪个charset,这就很可能不准了。使用记事本打开那个“联通”文件就属于这种情况。

我们可以证明这一点:在记事本中键入“联通”后,选择“save as”,会看到最后一个下拉框中显示有“ansi”,这时保存。当再当打开“联通”文件出现乱码后,再点击“file”->“save as”,会看到最后一个下拉框中显示有“utf-8”,这说明记事本认为当前打开的这个文本是一个utf-8编码的文本。而我们刚才保存时是用ansi字符集保存的。这说明,记事本猜测了“联通”文件的字符集,认为它更像一个utf-8编码文本。这是因为“联通”两个字的gb-2312编码看起来更像utf-8编码导致的,这是一个巧合,不是所有文字都这样。可以使用记事本的打开功能,在打开“联通”文件时在最后一个下拉框中选择ansi,就能正常显示了。反过来,如果之前保存时保存为utf-8编码,则直接打开也不会出现问题。

如果将“联通”文件放入ms word中,word也会认为它是一个utf-8编码的文件,但它不能确定,因此会弹出一个对话框询问用户,这时选择“简体中文(gb2312)”,就能正常打开了。记事本在这一点上做得比较简化罢了,这与这个程序的定位是一致的。


B11层 发表时间: 04-01-21 17:03

回复: NetDemon [netdemon]   ADMIN   登录
很久前286转过
http://www.20cn.net/cgi-bin/club/show.pl?key=FeVKSpFRAlZf&cat=tech&forum=code&id=1071232473&page=1


B12层 发表时间: 04-01-21 17:21

回复: hackingboy [hackingboy]   论坛用户   登录
我保存之后我的电脑里还是联通二个字

B13层 发表时间: 04-01-21 22:26

回复: f117ii [f117ii]   论坛用户   登录


B14层 发表时间: 04-01-22 11:46

回复: lyl82 [lyl82]   论坛用户   登录
呵呵,还真巧了。

B15层 发表时间: 04-01-22 13:11

回复: wo521 [wo521]   论坛用户   登录
好的
知道1~!~


B16层 发表时间: 04-06-23 11:30

论坛: 轻松一刻

20CN网络安全小组版权所有
Copyright © 2000-2010 20CN Security Group. All Rights Reserved.
论坛程序编写:NetDemon

粤ICP备05087286号