字符编码

来自百合仙子's Wiki
(重定向自编码
跳转到导航 跳转到搜索
各种中文乱码

汉字

汉字编码主要在 U+4E00–U+9FFF (CJK统一表意字符)。 也有说汉字范围是 U+4E00–U+9FA5 的。

GB2312

字节结构

双字节:

第一个字节的值在0xA1到0xFE之间(实际为0xF7), 第二个字节的值在0xA1到0xFE之间

GB18030

与GB2312-1980完全兼容,与GBK基本兼容,支持GB13000及Unicode的全部统一汉字,共收录汉字70244个。

字节结构

单字节,其值从0到0x7F。

双字节,第一个字节的值从0x81到0xFE,第二个字节的值从0x40到0xFE(不包括0x7F)。

四字节,第一个字节的值从0x81到0xFE,第二个字节的值从0x30到0x39,第三个字节从0x81到0xFE,第四个字节从0x30到0x39。

UTF-8

常见易混符号

横线

名称 用途 字符 Unicode LaTeX表示
MINUS SIGN 数学减号 U+2212 $-$
EN DASH 表示范围 U+2013 --
EM DASH 破折号(英文一个,中文两个) U+2014 ---
HYPHEN-MINUS 连字符号 - U+002D -

相关软件

  • enca
    • 注意:无法识别 UTF-16le 等编码。有时也识别不了 GB 编码。

外部链接