python的字符转换常见bug-创新互联
1.python把一个unicode字符串写入文件为什么会报错?
创新互联坚持“要么做到,要么别承诺”的工作理念,服务领域包括:网站设计制作、成都网站制作、企业官网、英文网站、手机端网站、网站推广等服务,满足客户于互联网时代的桂东网站设计、移动媒体设计的需求,帮助企业找到有效的互联网解决方案。努力成为您成熟可靠的网络建设合作伙伴!write方法的参数类型是str,str是二进制流(不包含编码信息),当你给出一个unicode对象时,会执行str函数转换成str类型再送给write方法。unicode转str包含一次编码,如不指定则默认使用ascii编码,而ascii编码集里汉字字符是没有对应的,所以报错。
正确做法是在代码里指定编码。比如在open里指定(fp= open('test.txt', 'w', encoding='utf-8')),或者在write的时候手动把unicode对象通过encode方法指定编码产生str。就是说写成fp.write(s.encode('utf8'))。注意unicode对象用encode是有意义的,str对象在py2里允许你对str对象使用encode,然而这是对指定了default encoding的情况下才有效的,因此不推荐新手对str直接encode。
2.Error:UnicodeEncodeError: ‘gbk’ codec can’t encode character u’\u200e’ in position 43: illegal multibyte sequence
原来出现’gbk’ codec can’t encode”的错误的根本原因是,对于前面的,不论是用
titleHtml.decode(“UTF-8”);
还是titleHtml.decode(“UTF-8”, ‘ignore’);
还是titleHtml.decode(“UTF-8”, ‘replace’);
都是可以得到正常的titleUni的Unicode字符的,然后对于此Unicode的字符,需要print出来的话,由于本地系统是Win7中的cmd,默认codepage是CP936,即GBK的编码,所以需要先将上述的Unicode的titleUni先编码为GBK,然后再在cmd中显示出来,然后由于titleUni中包含一些GBK中无法显示的字符,导致此时提示“’gbk’ codec can’t encode”的错误的。
对于此(类)问题:
(1)出现UnicodeEncodeError –> 说明是Unicode编码时候的问题;
(2) ‘gbk’ codec can’t encode character –> 说明是将Unicode字符编码为GBK时候出现的问题;
此时,往往大的可能就是,本身Unicode类型的字符中,包含了一些无法转换为GBK编码的一些字符。
解决办法是:
方案1:
在对unicode字符编码时,添加ignore参数,忽略无法无法编码的字符,这样就可以正常编码为GBK了。
对应代码为:
gbkTypeStr = unicodeTypeStr.encode(“GBK“, ‘ignore’);
方案2:
或者,将其转换为GBK编码的超集GB18030 (即,GBK是GB18030的子集):
gb18030TypeStr = unicodeTypeStr.encode(“GB18030“);
对应的得到的字符是GB18030的编码。
另外有需要云服务器可以了解下创新互联cdcxhl.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。
本文名称:python的字符转换常见bug-创新互联
文章路径:http://pwwzsj.com/article/ddjpoc.html