中文字符编码

2025-06-26 19:09:27121 次浏览

最佳答案

在计算机和电信技术中,一个字符是一个单位的字形、类字形单位或符号的基本信息。简单来说,字符是各种文字和符号的总称。一个字符可以是一个中文汉字、一个英文字母、一个阿拉伯数字、一个标点符号、一个图形符号或者控制符号等。

字符集是指多个字符的集合。不同的字符集包含的字符个数不一样、包含的字符不一样、对字符的编码方式也不一样。例如,GB2312是中国国家标准的简体中文字符集,收录简化汉字(6763个)及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母,共7445个图形字符。而ASCII字符集只包含了128个字符,这个字符集收录的主要字符是英文字母、阿拉伯数字和一些简单的控制字符。

字符编码是指一种映射规则,根据这个映射规则可以将某个字符映射成其他形式的数据以便在计算机中存储和传输。例如,ASCII字符编码规定使用单字节中低位的7个比特去编码所有的字符,在这个编码规则下,字母A的编号是65(ASCII码),用单字节表示就是0x41,因此写入存储设备的时候就是二进制的01000001。每种字符集都有自己的字符编码规则,常用的字符集编码规则还有UTF-8编码、GBK编码、Big5编码等。

码点是指某个字符集中,根据某种编码规则将字符编码后得到的值。比如在ASCII字符集中,字母A经过ASCII编码得到的值是65,那么65就是字符A在ASCII字符集中的码点。

ASCII编码是美国人给自己设计的,他们并没有考虑欧洲那些扩展的拉丁字母,也没有考虑韩语、日语、中文等其他语言。起初计算机使用的就是ASCII码,只能显示英文字符。各个国家为了让本国公民也能正常使用计算机,开始效仿ASCII开发自己的字符编码,例如ISO/IEC 8859(欧洲字符集)、shift_Jis(日语字符集)、GBK(中文字符集)等。

ASCII编码于1967年第一次发布,最后一次更新是在1986年,迄今为止共收录了128个字符,包含了基本的拉丁字母(英文字母)、阿拉伯数字(也就是1234567890)、标点符号(,.!等)、特殊符号(@#$%^&等)以及一些具有控制功能的字符(往往不会显示出来)。

GB2312是由中国国家标准总局1980年发布,1981年5月1日开始实施的一套国家标准,标准号是GB 2312—1980。GB2312的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆99.75%的使用频率。对于人名、古汉语等方面出现的罕用字,GB2312不能处理,这导致了后来GBK及GB 18030汉字字符集的出现。

Unicode的使命就是为了统一世界上所有语言的编码,它包含了世界上所有字符的编码,规定了每个字符对应的码点值。Unicode不是一次性定义的,而是分区定义。每个区可以存放65536个(2^16)字符,称为一个平面。最前面的65536个字符位,称为基本平面(缩写BMP),它的码点范围是从0一直到2^16-1,写成16进制就是从U+0000到U+FFFF。所有最常见的字符都放在这个平面,这是Unicode最先定义和公布的一个平面。剩下的字符都放在辅助平面(缩写SMP)。

UTF-8是一种变长的编码方法,字符长度从1个字节到4个字节不等。越是常用的字符,字节越短,最前面的128个字符,只使用1个字节表示,与ASCII码完全相同。

UTF-16编码介于UTF-32与UTF-8之间,同时结合了定长和变长两种编码方法的特点。它的编码规则很简单:基本平面的字符占用2个字节,辅助平面的字符占用4个字节。也就是说,UTF-16的编码长度要么是2个字节(U+0000到U+FFFF),要么是4个字节(U+010000到U+10FFFF)。

UTF-8是Unicode的一种实现方式,使用1-4个字节表示一个符号,对于某一个字符的UTF-8编码,如果只有一个字节则其最高二进制位为0;如果是多字节,其第一个字节从最高位开始,连续的二进制位值为1的个数决定了其编码的位数,其余各字节均以10开头。UTF-8最多可用到6个字节。

声明:知趣百科所有作品均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请在页面底部查找“联系我们”的链接,并通过该渠道与我们取得联系以便进一步处理。