UTF-8

词语解释

UTF-8（8-bit Unicode Transformation Format）是一种可变长度的Unicode字符编码，由Ken Thompson于1992年设计，目前是国际上最常用的Unicode编码。 UTF-8是一种编码格式，它可以将Unicode字符集中的任意字符编码为一个或多个字节，以便存储和传输。UTF-8的优点在于它可以有效地处理Unicode字符集中的大多数字符，而且它的编码和解码速度都比较快，而且它可以与ASCII字符集兼容，因此它是现在国际上最常用的Unicode编码格式。 UTF-8在通信中的应用主要体现在以下几个方面： 1、在网络传输中，UTF-8可以有效地将Unicode字符集中的大多数字符编码为一个或多个字节，以便存储和传输。 2、在多语言环境中，UTF-8可以有效地处理Unicode字符集中的大多数字符，从而使不同语言的用户可以交流。 3、在数据库存储中，UTF-8可以有效地存储Unicode字符集中的大多数字符，从而使数据库的存储空间得到有效利用。 4、在文本处理中，UTF-8可以有效地处理Unicode字符集中的大多数字符，从而使文本处理的效率得到提高。总之，UTF-8是一种可变长度的Unicode字符编码，它可以有效地处理Unicode字符集中的大多数字符，因此它是现在国际上最常用的Unicode编码格式，它在网络传输、多语言环境、数据库存储和文本处理等方面都有着重要的应用。

UTF-8（8 位元 Universal Character Set/Unicode Transformation Format）是针对Unicode 的一种可变长度字符编码。它可以用来表示 Unicode 标准中的任何字符，而且其编码中的第一个字节仍与 ASCII 相容，使得原来处理 ASCII 字符的软件无需或只作少部份修改后，便可继续使用。因此，它逐渐成为电子邮件、网页及其他储存或传送文字的应用中，优先采用的编码。
UTF-8 使用一至四个字节为每个字符编码：

128 个 US-ASCII 字符只需一个字节编码（Unicode 范围由 U+0000 至 U+007F）。
带有变音符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文及它拿字母则需要二个字节编码（Unicode 范围由 U+0080 至 U+07FF）。
其他基本多文种平面（BMP）中的字符（这包含了大部分常用字）使用三个字节编码。
其他极少使用的 Unicode 辅助平面的字符使用四字节编码。

对上述提及的第四种字符而言，UTF-8 使用四个字节来编码似乎太耗费资源了。但 UTF-8 对所有常用的字符都可以用三个字节表示，而且它的另一种选择，UTF-16编码，对前述的第四种字符同样需要四个字节来编码，所以要决定 UTF-8 或 UTF-16 哪种编码比较有效率，还要视所使用的字符的分布范围而定。不过，如果使用一些传统的压缩系统，比如 DEFLATE，则这些不同编码系统间的的差异就变得微不足道了。若顾及传统压缩算法在压缩较短文字上的效果不大，可以考虑使用 Standard Compression Scheme for Unicode（SCSU）。
因特网工程工作小组（IETF）要求所有因特网协议都必须支援 UTF-8 编码。[1] 互联网邮件联盟（IMC）建议所有电子邮件软件都支援 UTF-8编码。所有主要的电子邮件软件中，只有 Eudora 不支援 UTF-8 编码。[1]

扫码付费即可复制

UTF-8

UTF-8

相关讨论贴

相关技术问答

相关资料下载

随机推荐词语