pzhdfy 最近的时间轴更新

pzhdfy

🏢 快手 / 大数据架构师

V2EX 第 86161 号会员，加入于 2014-12-11 11:20:38 +08:00

北京 GitHub

pzhdfy

hadoop生态开源贡献者

pzhdfy 提问技术话题好玩工作信息交易信息城市相关

chrome 浏览 v2ex, 关闭从列表页点开的新标签页，结果同时关闭新标签页和列表页

问与答 • pzhdfy • 82 天前

office 365 拼车 ,到期 2027/07/14, 一年 50，两年 80，最后一个车位

拼车 • pzhdfy • 176 天前

office 365 拼车 ,到期 2027/07/14, 一年 50，两年 80

二手交易 • pzhdfy • 178 天前

国区 icloud 2T+music 拼车（年/半年/季付）

iCloud • pzhdfy • 2023-10-12 15:04:31 PM • 最后回复来自 pzhdfy

office 365 拼车 40/人/年，到期 2022/07/14,可 1 年可 2 年

二手交易 • pzhdfy • 2020-07-16 12:43:38 PM • 最后回复来自 softliumin110

[北京] 快手大数据架构团队急招（欢迎热衷技术，参与开源的小伙伴）

酷工作 • pzhdfy • 2019-10-30 16:05:04 PM • 最后回复来自 pzhdfy

[北京] 快手大数据架构团队持续招人（欢迎热衷技术，开源的小伙伴）

酷工作 • pzhdfy • 2019-05-25 18:06:46 PM • 最后回复来自 ffbh

» pzhdfy 创建的更多主题

pzhdfy 最近回复了

2024-02-18 14:53:06 +08:00

回复了 FeifeiJin 创建的主题 › 程序员 › 超大型文件比较，内存不足，只能分页读区再匹配，但头都秃了，也没想到优化的方式，朋友们帮帮忙啊。

这不是大数据经典处理方法吗

将 PersonListA.csv 通过 name hash 拆分为 10 个，PersonListA_1.csv,PersonListA_2.csv...,PersonListA_10.csv （或者更多，每个文件能载入内存就行）
规则是每行数据通过 hash(name)%10 来确定放到哪个文件

将 PersonListB.csv 也是一样的原理，生成 PersonListB_1.csv,PersonListB_2.csv...,PersonListB_10.csv

这样 PersonListA_1.csv 只会根 PersonListB_1.csv 有相同 name 的数据，
所以只需要 10 组文件对比就行

2023-10-12 15:04:31 +08:00

回复了 pzhdfy 创建的主题 › iCloud › 国区 icloud 2T+music 拼车（年/半年/季付）

满了

2023-10-12 10:24:05 +08:00

回复了 pzhdfy 创建的主题 › iCloud › 国区 icloud 2T+music 拼车（年/半年/季付）

仅有最后一个了

2023-10-11 22:39:42 +08:00

回复了 pzhdfy 创建的主题 › iCloud › 国区 icloud 2T+music 拼车（年/半年/季付）

还有 2 个车位

» pzhdfy 创建的更多回复