pzhdfy 最近的时间轴更新
pzhdfy

pzhdfy

🏢  快手 / 大数据架构师
V2EX 第 86161 号会员,加入于 2014-12-11 11:20:38 +08:00
今日活跃度排名 11573
hadoop生态开源贡献者
pzhdfy 最近回复了
这不是大数据经典处理方法吗

将 PersonListA.csv 通过 name hash 拆分为 10 个,PersonListA_1.csv,PersonListA_2.csv...,PersonListA_10.csv (或者更多,每个文件能载入内存就行)
规则是每行数据通过 hash(name)%10 来确定放到哪个文件

将 PersonListB.csv 也是一样的原理,生成 PersonListB_1.csv,PersonListB_2.csv...,PersonListB_10.csv

这样 PersonListA_1.csv 只会根 PersonListB_1.csv 有相同 name 的数据,
所以只需要 10 组文件对比就行
168 天前
回复了 pzhdfy 创建的主题 iCloud 国区 icloud 2T+music 拼车(年/半年/季付)
满了
168 天前
回复了 pzhdfy 创建的主题 iCloud 国区 icloud 2T+music 拼车(年/半年/季付)
仅有最后一个了
168 天前
回复了 pzhdfy 创建的主题 iCloud 国区 icloud 2T+music 拼车(年/半年/季付)
还有 2 个车位
169 天前
回复了 Lexgni 创建的主题 iCloud iCloud 国区拼
@hyv2u 可以看下我发的车
2022-09-30 11:06:02 +08:00
回复了 hhhhhh123 创建的主题 程序员 Python 读取 500M .pkl 文件,却用了 8 G 内存
@hhhhhh123
不是这样算的 openjdk 还是 c++写的呢
需要按照 pod 这类 c/c++原生内存布局才能省空间
cpython 的都是一堆对象,对象相互引用,每个对象额外的 overhead 特别大。
举个简单的例子 java 里面 int[] 和 Intager[] 的内存占用和计算速度差很大
2022-05-30 11:07:40 +08:00
回复了 2liuqi 创建的主题 上海 在上海的哥哥姐姐们,打算搞车的,你们都有意向搞什么车
北京的个人绿牌都已经排队到 45 年了
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3151 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 17ms · UTC 14:27 · PVG 22:27 · LAX 07:27 · JFK 10:27
Developed with CodeLauncher
♥ Do have faith in what you're doing.