V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
krisbai
V2EX  ›  Python

Pandas 处理读取 excel 数据的时候中文字符显示问号乱码?

  •  
  •   krisbai · 2017-11-21 13:42:23 +08:00 · 8688 次点击
    这是一个创建于 2347 天前的主题,其中的信息可能已经有所发展或是发生改变。
    如题,测试了多种方法都不可行。coding=utf8 ,encoding='18030' 都验证过。求思路,谢谢!
    第 1 条附言  ·  2017-11-21 15:54:27 +08:00
    补充下脚本内容:
    #-*-coding: utf-8 -*-

    import pandas as pd
    import sys

    reload(sys)
    sys.setdefaultencoding("utf-8")

    df = pd.read_csv('/opt/ck.csv', encoding='utf-8', nrows=10)
    print df

    打印结果:

    ?? ???? ??? ???? ???? ???? ???? ???? ???? \
    0 1 AR-2017-0025 ??? 42740.80595 ??? ?? 42744 0.395833 42744
    1 2 AR-2017-0153 ??? 42755.44742 ??? ?? 42761 0.395833 42761
    2 3 AR-2017-0154 ??? 42755.45005 ??? ?? 42769 0.395833 42770
    3 4 AR-2017-0206 ??? 42768.81582 ??? ?? 42769 0.395833 42770
    第 2 条附言  ·  2017-11-24 13:00:03 +08:00
    完成代码:

    import numpy as np
    import pandas as pd
    import xlrd
    import openpyxl

    book = xlrd.open_workbook('op.xlsx', encoding_override='gb18030')
    df = pd.DataFrame(pd.read_excel(book, engine='xlrd'))
    df_inner = df.loc[df['标题'].isin(['提取内容'])]
    df_inner.to_excel('/opt/op_test.xlsx')
    8 条回复    2017-11-24 12:26:26 +08:00
    wampyl
        1
    wampyl  
       2017-11-21 14:01:09 +08:00
    关注,我上次服务器转码死活不行,最后直接用 iconv 命令了。
    wang9571
        2
    wang9571  
       2017-11-21 14:43:19 +08:00   ❤️ 1
    没有报错信息,我不知道你遇到的情况跟我的是不是一样。我说一下我碰到的情况。

    Pandas 的 read_excel 是基于 xlrd 的,但是这个方法会接收多余的参数,直接 coding=utf8 是传不到 xlrd 那里的。
    你可以先用 book = xlrd.open_workbook(文件, encoding_override='gb18030'),
    再使用 pandas.read_excel(book, engine='xlrd')
    wx8600
        3
    wx8600  
       2017-11-22 01:24:33 +08:00
    你们能不能不要用 Py2 了…这都 2017 年了…
    billgreen1
        4
    billgreen1  
       2017-11-22 10:32:04 +08:00
    @wx8600 赞同
    data2world
        5
    data2world  
       2017-11-22 16:12:16 +08:00
    哥们儿,1,你的平台是什么? linux 还是 win。2。你这是 csv 不是 excel。3。一般来讲 sys.setdefaultencoding("utf-8") 几乎不能解决乱码问题。4. 你可以测试新建一个包含中文的 csv 文件,看是否乱码。5.以前我遇到过读文件只有一个字是乱码的。。。但是在 office 显示是正常的。。。
    ulster02
        6
    ulster02  
       2017-11-24 08:57:46 +08:00
    encoding= 'gb18030'
    krisbai
        7
    krisbai  
    OP
       2017-11-24 12:26:11 +08:00
    @wang9571 这个办法不错。
    krisbai
        8
    krisbai  
    OP
       2017-11-24 12:26:26 +08:00
    import numpy as np
    import pandas as pd
    import xlrd
    import openpyxl

    book = xlrd.open_workbook('op.xlsx', encoding_override='gb18030')
    df = pd.DataFrame(pd.read_excel(book, engine='xlrd'))
    df_inner = df.loc[df['标题'].isin(['提取内容'])]
    df_inner.to_excel('/opt/op_test.xlsx')
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1703 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 16:44 · PVG 00:44 · LAX 09:44 · JFK 12:44
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.