V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
bworker
V2EX  ›  问与答

用什么抓邮件不会缺失数据??

  •  
  •   bworker · 2020-07-07 10:06:26 +08:00 · 1353 次点击
    这是一个创建于 1600 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近要把公司的公共邮箱的邮件抓到本地,然后做一层权限控制和操作记录。

    一开始我使用的 python 的 pop3 去抓取邮件,但是会缺失一些数据,比如邮件的发件人名称、还有一些邮件内容也会缺失。

    为什么 fixmail 这些客户端软件都不会缺失数据??,他们是怎么实现的? 难道不也是抓 pop 服务器的?

    有什么好建议吗? 怎么将邮箱数据更好的同步到本地数据库里?

    16 条回复    2020-07-07 16:45:01 +08:00
    TimePPT
        1
    TimePPT  
       2020-07-07 10:33:26 +08:00 via Android
    描述里看不出哪个环节出了问题,下到本地的邮件头完整吗?一般头里有收发件人信息
    x66
        2
    x66  
       2020-07-07 10:46:52 +08:00
    名称应该是通过通讯录读取出来的吧。
    bworker
        3
    bworker  
    OP
       2020-07-07 10:49:21 +08:00
    我就是用 python 的 popLib 库解析不出来,估计是这个库的问题
    MadbookPro
        4
    MadbookPro  
       2020-07-07 10:49:45 +08:00
    是不是没有对 Content-Transfer-Encoding 做相应的处理?
    7bit 8bit base64 quoted-printable 等等
    wangkun025
        5
    wangkun025  
       2020-07-07 10:51:40 +08:00
    开启 imap,不就是同步了嘛
    不理解为啥会缺失数据。邮件本身就是个文件。
    bworker
        6
    bworker  
    OP
       2020-07-07 10:55:53 +08:00
    缺失数据,好像是编码的问题
    bworker
        7
    bworker  
    OP
       2020-07-07 14:37:13 +08:00
    @MadbookPro 怎么去处理?
    None123
        8
    None123  
       2020-07-07 14:42:37 +08:00
    别用 pop3 用 IMAP
    None123
        9
    None123  
       2020-07-07 14:44:17 +08:00
    pop3 得到的数据不全
    MadbookPro
        10
    MadbookPro  
       2020-07-07 14:45:00 +08:00
    @bworker #7 参考 [rfc2045]( https://tools.ietf.org/html/rfc2045) ,我没用过 python,但是 python 会有标准库的。
    Ritter
        11
    Ritter  
       2020-07-07 14:55:38 +08:00
    我现在也在弄这个 用 IMAP 协议 可以用 GitHub 上面这个库(Imbox)[https://github.com/martinrusev/imbox] 自己解析太麻烦了
    bworker
        12
    bworker  
    OP
       2020-07-07 15:35:03 +08:00
    @None123 @TimePPT 我感觉是 python 库解析的问题, 我 debug,明明有名称这个信息,但是它没解析出来
    bworker
        13
    bworker  
    OP
       2020-07-07 15:58:50 +08:00
    @Ritter 这个库会丢数据吗?大数据量抓取会不会少邮件?
    None123
        14
    None123  
       2020-07-07 16:09:17 +08:00
    @bworker pop3 就是少数据 我 qq 和 gmail 都试过了

    我 27 万条数据 都是用 imaplib 抓出来的
    Ritter
        15
    Ritter  
       2020-07-07 16:35:56 +08:00
    @bworker 我抓了没少
    bworker
        16
    bworker  
    OP
       2020-07-07 16:45:01 +08:00
    @Ritter 抓了多少邮件?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1107 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 19ms · UTC 18:41 · PVG 02:41 · LAX 10:41 · JFK 13:41
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.