我最近在录入人民日报的文章,里面有一些极其生僻的人名、地名。比如越南有个地方叫做北𣴓,这个𣴓字是 CJK 扩展 B 区里面的, UTF-8 编码有六个字节,但是目前 MySQL 的 utf8mb4 最多就支持四个字节的。这问题有没有解决方法?
大家无视我吧,我发现𣴓这个字就是四个字节的,是我数据库设置的问题...
1
yeyeye 2016-04-28 08:43:23 +08:00
6 字节…… 这也太占空间了吧……
|
2
SoloCompany 2016-04-28 22:49:13 +08:00
这明明是你的问题,至少到现在的 Unicode 标准为止,字符数还没有超过十万, 4 字节的 Utf-8 有 21 个有效 bit 位 (11110xxx 10xxxxxx 10xxxxxx 10xxxxxx),至少可以容纳两百万个字符,还早着呢
|