这是一个创建于 2429 天前的主题,其中的信息可能已经有所发展或是发生改变。
经常要导入大量的 UTF-8 文本到数据库,但是数据质量不高。有时候一行存在\会 load 报错,有时候部分字段会出现编码乱码,出现�����г��这种。
想用 python 实现一个功能,
一是想实现根据表结构、字段长度来扫描每一行数据是否符合表的要求;
二是检查每一行数据的编码,如果发现有上述的乱码或者\,能够经过某种处理弄成正确编码(数据库可以接受的 utf8 编码)
python 初学者,大牛们能不能指点一下这个轮子是不是已经有了?如果没有要是个什么思路呢?