V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
foxyier
V2EX  ›  Python

最近抓取一个网站,编码格式无法解决, 求助帖

  •  1
     
  •   foxyier · 2018-10-31 15:00:28 +08:00 · 2011 次点击
    这是一个创建于 1976 天前的主题,其中的信息可能已经有所发展或是发生改变。
    通过查看网页源码, 网站编码格式为 utf-8, 可是通过 utf-8 解码提示 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte, 通过设置 ignore 参数, 成功得到了一堆乱码。 网站链接在此: http://www.bw30.com/tszt/huodong/09/wpsj/index.htm, 坐等各位大佬协助~
    8 条回复    2018-10-31 15:32:39 +08:00
    zealot0630
        1
    zealot0630  
       2018-10-31 15:02:54 +08:00
    bom 了解一下
    binux
        2
    binux  
       2018-10-31 15:06:29 +08:00
    GB2312
    foxyier
        3
    foxyier  
    OP
       2018-10-31 15:12:08 +08:00
    @binux gb2312 和 gbk 都会报 UnicodeDecodeError: 'gb2312' codec can't decode byte 0xff in position 0: illegal multibyte sequence
    ysc3839
        4
    ysc3839  
       2018-10-31 15:14:25 +08:00 via Android
    估计是 UTF-8 BOM 吧?
    Sylv
        5
    Sylv  
       2018-10-31 15:15:45 +08:00 via iPhone
    上代码,要不然我们只能瞎猜。
    fzzff
        6
    fzzff  
       2018-10-31 15:20:16 +08:00
    chardet 试试
    XIVN1987
        7
    XIVN1987  
       2018-10-31 15:26:10 +08:00
    同意楼上,百度“ UTF-8 BOM python ”试试
    foxyier
        8
    foxyier  
    OP
       2018-10-31 15:32:39 +08:00
    @fzzff 多谢, 检测出来了, 编码格式是 utf-16
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2760 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 12:33 · PVG 20:33 · LAX 05:33 · JFK 08:33
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.