V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
shamashii
V2EX  ›  Python

如何使 ord()小于 127 的 ascii 字符保持 b'\xXX' 形式而不是自动识别

  •  
  •   shamashii · 2018-02-20 18:25:39 +08:00 · 2419 次点击
    这是一个创建于 2228 天前的主题,其中的信息可能已经有所发展或是发生改变。
    可能有点绕。举例:
    >>> ord('ß')
    223 (大于 127 )

    >>> hex(ord('ß'))
    '0xdf'

    >>> b'\xdf'
    b'\xdf'(想要的)

    >>> ord('A')
    65(小于 127)

    >>> hex(ord('A'))
    '0x41'


    >>> b'\x41'
    b'A' (不是想要的)

    虽然 doc 里说明了这种行为,想要结果仍为 b'\x41',不知有没有什么方法
    8 条回复    2018-02-20 23:23:44 +08:00
    ysc3839
        1
    ysc3839  
       2018-02-20 18:36:44 +08:00 via Android
    'A'.encode()[0] 不就行了吗?
    huntzhan
        2
    huntzhan  
       2018-02-20 18:41:42 +08:00   ❤️ 1
    你先搞清楚 unicode code point 以及 encoding 两者的区别。

    ```
    >>> b'\xdf'
    b'\xdf'
    >>> '\xdf'
    'ß'
    ```
    geelaw
        3
    geelaw  
       2018-02-20 18:51:31 +08:00
    b'\x41' 和 b'A' 是相等的,不存在“保留不保留”的问题,只是默认的输出器输出的时候用了后一种形式来格式化 /序列化。

    你只要自己写一个用来把 byte sequence 转换为字符串表示的方法即可。比如

    ''.join(map(lambda x: '\\x%x' % x, b'A'))
    geelaw
        4
    geelaw  
       2018-02-20 18:53:46 +08:00
    @geelaw 唔,显然我没有测试代码 - - 应该是

    print("b'%s'" % ''.join(map(lambda x: '\\x%x' % x, b'A')))
    shamashii
        5
    shamashii  
    OP
       2018-02-20 19:01:54 +08:00
    @ysc3839 我要的结果是 b'\x41'

    @huntzhan 请告诉我如何才能实现输入 b'\x41' ,回车, 结果仍然是 b'\x41' 而不是 b'A'

    至于 ucp 号,至少常用 ascii 对应的 ucp 号和其被编码后(大部分如 utf8,ascii)的物理 hex 值相同吧?
    ysc3839
        6
    ysc3839  
       2018-02-20 19:08:38 +08:00 via Android
    @shamashii 参见 3 楼。
    如果你只是要个文本的话,那就
    "b'\"+hex(ord('A'))[1:]+"'"
    huntzhan
        7
    huntzhan  
       2018-02-20 19:23:04 +08:00   ❤️ 1
    输出 b'\xdf' 是 by design 的,因为 `b` 仅仅是 binary data。如果你想要改变这个默认行为,可以 override `sys.displayhook`。

    ```
    >>> import sys
    >>> sys.displayhook = lambda val: print('fuck kula')
    >>> 1
    fuck kula
    >>> 2
    fuck kula
    ```

    https://stackoverflow.com/questions/17248383/pretty-print-by-default-in-python-repl
    msg7086
        8
    msg7086  
       2018-02-20 23:23:44 +08:00
    b'\x41' 和 b'A' 是一个东西。一模一样的一个东西。

    造成区别的是把他打印在屏幕上的那个函数。

    如楼上所说,你要改变'A'的显示方式,修改显示函数就行了,自己拿字符然后转写成这种方法,甚至是直接打印出 16 进制的值都行。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5384 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 44ms · UTC 07:34 · PVG 15:34 · LAX 00:34 · JFK 03:34
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.