Unicode和UTF-8
Unicode与UTF-8
Unicode的开发旨在创建一种新标准,用于映射当今使用的绝大多数语言中的字符,以及其他不是必需但可能是创建文本所必需的字符。 UTF-8只是可以对文件进行编码的众多方法之一,因为有很多方法可以将文件中的字符编码为Unicode。
UTF-8的开发考虑了兼容性。 ASCII是一个非常突出的标准,已经拥有ASCII标准文件的人可能会犹豫采用Unicode,因为它会破坏他们当前的系统。 UTF-8消除了这个问题,因为任何只编码ASCII字符集中的字符的文件都会产生相同的文件,就好像它是用ASCII编码的一样。这使得人们可以采用Unicode而无需转换文件,甚至无需更改当前不知道Unicode标准的遗留软件。 Unicode的任何其他映射方法都会破坏与ASCII的兼容性,并会强制人们转换他们的系统。
遵守与UTF-8的ASCII兼容性会产生副作用,使其成为字处理的理想选择,大多数情况下,所有使用的字符都包含在ASCII字符集中。 UTF-8仅使用一个字节来表示每个代码点,导致文件大小是UT-16中使用2个字节编码的同一文件的一半,而使用4的UTF-32编码的同一文件的四分之一。
UTF-8已被万维网采用,因为它既节省空间又面向字节。网页通常是简单的文本文件,通常不包含ASCII字符集之外的任何字符。使用其他编码方法只会增加网络负载而没有任何好处。即使在电子邮件传输系统中,UTF-8也在缓慢但肯定地被用作替代仍在使用的旧编码系统。
摘要: 1. Unicode是计算机显示和操作文本的标准,而UTF-8是Unicode的许多映射方法之一 2. UTF-8是一种映射方法,它保留了与旧ASCII的兼容性 3.与其他编码方法相比,UTF-8是Unicode最节省空间的映射方法 4. UTF-8是Web上最常用的Unicode标准