V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  ershierdu  ›  全部回复第 1 页 / 共 31 页
回复总数  617
1  2  3  4  5  6  7  8  9  10 ... 31  
不了解最新的分布式架构,但感觉这也太符合 MapReduce 的思路了…

逻辑上:
1. 把文件扫一遍,得到 id->list[pair<content,sort>]的映射。
2. 单独为每个 id 的内容做内部排序。

实现上:
1.无论用什么方法,一轮文件 IO 把数据都进来都是需要的。为了后续处理更方便,再多加一轮 IO ,先把大文件按 1<id<10w, 10w+1<id<20w...切成多个小文件,这样每个小文件都是独立的,后续处理时维护的中间状态会少很多。
2. 每个小文件用一个进程处理,得到 id->list[pair<content,sort>]的中间结果。要么像楼上说的直接进数据库,要么每个 id 的内容放在一个文件里。一个小文件跑完后就可以从中间结果生成最终数据了。

并行度可以在切小文件的时候控制(每个小文件 10w 还是 100w 个 id )。

前提:
你存放最终结果的数据库需要能承受这么大的最终数据,否则啥办法都白搭。
52 天前
回复了 ttomatoo 创建的主题 问与答 C 盘焦虑症各位有吗? C 盘分多大合适?
@wxgsorry 有价值的数据都在云端(甚至桌面我都在用坚果云同步)。否则,硬盘损坏/电脑丢失等情况造成数据丢失的可能性,会比 C 盘满了更能让我焦虑……
75 天前
回复了 Margelator 创建的主题 问与答 写一句你所知的计算机界名言名句。
翻了两页没人提这个:
Attention is all you need.
六月份刚南京搬上海,全部走顺丰大件的快递,算下来大概一斤一块钱。
当然坏处是没法跟人同时到
从问题和给的样例来看,OP 应该是刚入门?
建议先学习一下 STL ,也就是 std::vector 之类的。楼上说的其他方案都更高阶了,可能不是现阶段你需要的
@LuBenwei6p
微信公众号“阿里云开发者”(带阿里蓝标认证的),最新一篇就是怎么用阿里云搭这个游戏的服务器哈哈哈。
不过这个貌似是游戏开发商提供的方案,可能跟你理解的私服不一样
初期塑造的廉价形象,小米手机花了至少五年才勉强摆脱,最终靠 13 系列在高端站稳了一点。
所以我觉得小米汽车比其他家更不可能走低价路线…
169 天前
回复了 root8080 创建的主题 电影 有什么致郁片推荐吗?痛哭流涕的那种
@b1t 林生祥,很不错的音乐人,但因为是方言民谣,所以受众不算特别广
198 天前
回复了 xuegy 创建的主题 职场话题 第一次当“面试官”的感受
另外 OP 这是什么层次的学校啊,我记得我大三的时候写代码还行,但 git 、LaTeX 都约等于不会,而且是 CS 的普遍情况。可能是我们就业氛围不浓厚,大部分人以升学为主?
198 天前
回复了 xuegy 创建的主题 职场话题 第一次当“面试官”的感受
确实样本量有点小了。另外 CS 本科生 2 能拿到这份工作的前提是投递的人少,如果你收到 200 份简历,这种简历像草稿、技术栈不匹配的的会第一批被筛掉。

说个题外话,我读书的时候 git 用得云里雾里的,工作后很快就熟悉了常用的指令,再加上偶尔查查 StackOverflow ,现在也够用了。我觉得这种工具是需求驱动的,读书时很少有多人协作的场景,git 对我来说就是和 onedrive 差不多的备份系统。即便当时去看教程,也只是认识一些指令,很快又忘掉。不过前提还是得懂 git 的基本原理。
212 天前
回复了 gushu 创建的主题 生活 大家有什么记住生活的方式?
相册+和别人的聊天记录,这两者被动地帮我记下很多事情。
主动记的话,用过 Journey ,现在用 Diarium ,设置一下坚果云的 webdav 就能全平台同步了。数据的格式我以前解过,不难解,所以最坏情况下即便开发者不维护了数据也还在,挺好的。
230 天前
回复了 MicroG 创建的主题 Apple iPhone 14 Pro 和 iPhone 15 怎么选
看重拍照:14 Pro 多出来的长焦挺适合拍人像的

但是从心理的角度看,最近 15 系列正在风头上,收到 15 也许会比 14 Pro 更开心
1  2  3  4  5  6  7  8  9  10 ... 31  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3158 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 34ms · UTC 13:35 · PVG 21:35 · LAX 06:35 · JFK 09:35
Developed with CodeLauncher
♥ Do have faith in what you're doing.