V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
xe2vxe2v
V2EX  ›  程序员

最近采集数据碰到的问题:对方网站用了自定义字体防采集 求 Java 破解方法

  •  
  •   xe2vxe2v · 2018-08-22 11:08:48 +08:00 · 2292 次点击
    这是一个创建于 2277 天前的主题,其中的信息可能已经有所发展或是发生改变。

    目前网上好像只给出了 python 的解决方式 -->https://www.jianshu.com/p/79c4272c0969 其中用到了 fonttools 库提取字体,不知道有没有大佬有 java 解决方案

    5 条回复    2018-08-23 02:50:54 +08:00
    huxiaohaiyang
        1
    huxiaohaiyang  
       2018-08-22 12:39:57 +08:00
    只是数字吧,不用实时解析字体,看下字符集,写好对应规则转换就行了
    JCZ2MkKb5S8ZX9pq
        2
    JCZ2MkKb5S8ZX9pq  
       2018-08-22 18:25:26 +08:00
    有点意思。不过只要转换一下就好了,啥语言都不难吧。
    另外,人家这么防着了,尊重一下 robots 协议啊……
    xe2vxe2v
        3
    xe2vxe2v  
    OP
       2018-08-22 19:08:27 +08:00
    @huxiaohaiyang 想做一个实时解析的 这样就不用改代码了
    xe2vxe2v
        4
    xe2vxe2v  
    OP
       2018-08-22 19:11:13 +08:00
    @JCZ2MkKb5S8ZX9pq java 好像没有解析如. woff 字体文件的类吧?
    JCZ2MkKb5S8ZX9pq
        5
    JCZ2MkKb5S8ZX9pq  
       2018-08-23 02:50:54 +08:00
    @xe2vxe2v 不用解析吧……你手动下载字体文件,看看改了啥映射,自己写个映射就好了。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2554 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 01:26 · PVG 09:26 · LAX 17:26 · JFK 20:26
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.