如何在分钟级别里处理 50G 数据？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 3177 天前的主题，其中的信息可能已经有所发展或是发生改变。

目前有一个需要处理 500 万条目大约 50GB 数据，数据目前放在 mongoDB 上，每次处理需要读出来，处理再写入，耗时在 5-6 个小时不等。请问目前市面上有什么样的云端数据处理框架可以帮助我能在分钟级或者秒级处理这些数据吗？

12 条回复 • 2017-05-15 13:15:07 +08:00

lynnworld

2017 年 5 月 14 日

为什么每个条目这么大？

ppn029012

2017 年 5 月 14 日 via iPhone

@lynnworld 文本数据

ETiV

2017 年 5 月 14 日

这么大数据，还要这么短时间。。。
要是硬盘给力的话，最快的处理方式恐怕就只有 rm -fr 了

billion

2017 年 5 月 14 日

如果你的 MongoDB 用的是阿里云，那么你可以试一试 MaxCompute

dexterzzz

2017 年 5 月 14 日

用内存，列存储数据库

Kilerd

2017 年 5 月 14 日

50GB /60 s = 1G/s
就算是连续读写这个速率都不低啊，还要进行处理

wanglaihuai

2017 年 5 月 14 日 via Android

@ETiV 哈哈哈哈，这个最快了。

powergx

2017 年 5 月 14 日

ramdisk 可以，延迟 /吞吐量能达标。云端不可能有

rrfeng

2017 年 5 月 14 日

如果还会增长的话趁早改 Hadoop 平台，各种选择
如果永远这么点儿的话 MongoDB SSD 多加内存也是可以的，但是要注意主机网络带宽（云主机内网带宽），一定会成为第一个瓶颈。解决方案是分片

kaneg

2017 年 5 月 14 日 via iPhone

hanadb

chocolatesir

2017 年 5 月 14 日 via Android

或许 conoha 可以。。

ihuotui

2017 年 5 月 15 日 via iPhone

业务是怎样？单数据量有什么好说