词语解释
UTF-8(8-bit Unicode Transformation Format)是一种可变长度的Unicode字符编码,由Ken Thompson于1992年设计,目前是国际上最常用的Unicode编码。 UTF-8是一种编码格式,它可以将Unicode字符集中的任意字符编码为一个或多个字节,以便存储和传输。UTF-8的优点在于它可以有效地处理Unicode字符集中的大多数字符,而且它的编码和解码速度都比较快,而且它可以与ASCII字符集兼容,因此它是现在国际上最常用的Unicode编码格式。 UTF-8在通信中的应用主要体现在以下几个方面: 1、在网络传输中,UTF-8可以有效地将Unicode字符集中的大多数字符编码为一个或多个字节,以便存储和传输。 2、在多语言环境中,UTF-8可以有效地处理Unicode字符集中的大多数字符,从而使不同语言的用户可以交流。 3、在数据库存储中,UTF-8可以有效地存储Unicode字符集中的大多数字符,从而使数据库的存储空间得到有效利用。 4、在文本处理中,UTF-8可以有效地处理Unicode字符集中的大多数字符,从而使文本处理的效率得到提高。 总之,UTF-8是一种可变长度的Unicode字符编码,它可以有效地处理Unicode字符集中的大多数字符,因此它是现在国际上最常用的Unicode编码格式,它在网络传输、多语言环境、数据库存储和文本处理等方面都有着重要的应用。 UTF-8(8 位元 Universal Character Set/Unicode Transformation Format)是针对Unicode 的一种可变长度字符编码。它可以用来表示 Unicode 标准中的任何字符,而且其编码中的第一个字节仍与 ASCII 相容,使得原来处理 ASCII 字符的软件无需或只作少部份修改后,便可继续使用。因此,它逐渐成为电子邮件、网页及其他储存或传送文字的应用中,优先采用的编码。 UTF-8 使用一至四个字节为每个字符编码: 128 个 US-ASCII 字符只需一个字节编码(Unicode 范围由 U+0000 至 U+007F)。 带有变音符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文及它拿字母则需要二个字节编码(Unicode 范围由 U+0080 至 U+07FF)。 其他基本多文种平面(BMP)中的字符(这包含了大部分常用字)使用三个字节编码。 其他极少使用的 Unicode 辅助平面的字符使用四字节编码。 对上述提及的第四种字符而言,UTF-8 使用四个字节来编码似乎太耗费资源了。但 UTF-8 对所有常用的字符都可以用三个字节表示,而且它的另一种选择,UTF-16编码,对前述的第四种字符同样需要四个字节来编码,所以要决定 UTF-8 或 UTF-16 哪种编码比较有效率,还要视所使用的字符的分布范围而定。不过,如果使用一些传统的压缩系统,比如 DEFLATE,则这些不同编码系统间的的差异就变得微不足道了。若顾及传统压缩算法在压缩较短文字上的效果不大,可以考虑使用 Standard Compression Scheme for Unicode(SCSU)。 因特网工程工作小组(IETF)要求所有因特网协议都必须支援 UTF-8 编码。[1] 互联网邮件联盟(IMC)建议所有电子邮件软件都支援 UTF-8编码。所有主要的电子邮件软件中,只有 Eudora 不支援 UTF-8 编码。[1]
UTF-8(8 位元 Universal Character Set/Unicode Transformation Format)是针对Unicode 的一种可变长度字符编码。它可以用来表示 Unicode 标准中的任何字符,而且其编码中的第一个字节仍与 ASCII 相容,使得原来处理 ASCII 字符的软件无需或只作少部份修改后,便可继续使用。因此,它逐渐成为电子邮件、网页及其他储存或传送文字的应用中,优先采用的编码。 UTF-8 使用一至四个字节为每个字符编码: 128 个 US-ASCII 字符只需一个字节编码(Unicode 范围由 U+0000 至 U+007F)。 带有变音符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文及它拿字母则需要二个字节编码(Unicode 范围由 U+0080 至 U+07FF)。 其他基本多文种平面(BMP)中的字符(这包含了大部分常用字)使用三个字节编码。 其他极少使用的 Unicode 辅助平面的字符使用四字节编码。 对上述提及的第四种字符而言,UTF-8 使用四个字节来编码似乎太耗费资源了。但 UTF-8 对所有常用的字符都可以用三个字节表示,而且它的另一种选择,UTF-16编码,对前述的第四种字符同样需要四个字节来编码,所以要决定 UTF-8 或 UTF-16 哪种编码比较有效率,还要视所使用的字符的分布范围而定。不过,如果使用一些传统的压缩系统,比如 DEFLATE,则这些不同编码系统间的的差异就变得微不足道了。若顾及传统压缩算法在压缩较短文字上的效果不大,可以考虑使用 Standard Compression Scheme for Unicode(SCSU)。 因特网工程工作小组(IETF)要求所有因特网协议都必须支援 UTF-8 编码。[1] 互联网邮件联盟(IMC)建议所有电子邮件软件都支援 UTF-8编码。所有主要的电子邮件软件中,只有 Eudora 不支援 UTF-8 编码。[1]
抱歉,此页面的内容受版权保护,复制需扣除次数,次数不足时需付费购买。
如需下载请点击:点击此处下载
扫码付费即可复制
Digital | cof | 驻地网 | 铁路通信 | 沃达丰 | 均衡 | BT | 信元 | 中兴通讯 | 诺基亚5800 | TBS | juniper |