V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
johnsneakers
V2EX  ›  问与答

多个千万级行数的文件,最快的求交集处理是怎么样的。

  •  
  •   johnsneakers · 2016-09-22 11:49:04 +08:00 · 1704 次点击
    这是一个创建于 2971 天前的主题,其中的信息可能已经有所发展或是发生改变。
    内容都是 uid\n , shell comm 效果不是很理想。

    内容如下:
    4234234
    123342
    42342
    3523423
    23423
    5 条回复    2016-09-22 18:44:00 +08:00
    ldbC5uTBj11yaeh5
        1
    ldbC5uTBj11yaeh5  
       2016-09-22 12:10:51 +08:00
    挂个 tmpfs, 把文件放到上面去,加上 export LC_ALL=C, 然后再用 comm
    HunterPan
        2
    HunterPan  
       2016-09-22 13:18:18 +08:00
    spark so easy
    jininij
        3
    jininij  
       2016-09-22 13:21:25 +08:00 via Android
    排序后求交集,复杂度仅为 1 。
    hinate
        4
    hinate  
       2016-09-22 14:04:53 +08:00 via Android
    load 到 hive 里面,查询
    zhizhongzhiwai
        5
    zhizhongzhiwai  
       2016-09-22 18:44:00 +08:00
    @jigloo niubility
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1127 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 18:30 · PVG 02:30 · LAX 10:30 · JFK 13:30
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.