字符编码
(重定向自编码)
汉字
汉字编码主要在 U+4E00–U+9FFF
(CJK统一表意字符)。
也有说汉字范围是 U+4E00–U+9FA5
的。
GB2312
字节结构
双字节:
第一个字节的值在0xA1到0xFE之间(实际为0xF7), 第二个字节的值在0xA1到0xFE之间
GB18030
与GB2312-1980完全兼容,与GBK基本兼容,支持GB13000及Unicode的全部统一汉字,共收录汉字70244个。
字节结构
单字节,其值从0到0x7F。
双字节,第一个字节的值从0x81到0xFE,第二个字节的值从0x40到0xFE(不包括0x7F)。
四字节,第一个字节的值从0x81到0xFE,第二个字节的值从0x30到0x39,第三个字节从0x81到0xFE,第四个字节从0x30到0x39。
UTF-8
- Multilingual Forms,包含对 UTF-8 字符串进行验证的正则表达式。
常见易混符号
横线
名称 | 用途 | 字符 | Unicode | LaTeX表示 |
MINUS SIGN | 数学减号 | − | U+2212 | $-$ |
EN DASH | 表示范围 | – | U+2013 | -- |
EM DASH | 破折号(英文一个,中文两个) | — | U+2014 | --- |
HYPHEN-MINUS | 连字符号 | - | U+002D | - |
相关软件
- enca
- 注意:无法识别 UTF-16le 等编码。有时也识别不了 GB 编码。