求教， 1000 万个总计 30GB 的文件，单机存储，渴望随机读取速度快，怎么存比较好？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

这是一个创建于 2484 天前的主题，其中的信息可能已经有所发展或是发生改变。

用什么数据库或系统或？

请教

求教

请教

读取

单机

27 条回复 • 2018-03-23 10:26:56 +08:00

dqh3000

2018-03-22 03:50:08 +08:00

可以认为是 1000 万个 json，但是并不需要查询内容

可以接受 KV 感觉的读取，每个文件可以有 uuid

binux

2018-03-22 03:59:43 +08:00

加 30G 内存

dqh3000

2018-03-22 04:19:13 +08:00

@binux 随机读写速度相对不会因为数据太多，性能下降太高就行

msg7086

2018-03-22 04:31:39 +08:00

NVMe SSD + Reiser4 ？

golmic

2018-03-22 07:56:23 +08:00 via Android

不懂帮顶。希望知道答案

murmur

2018-03-22 07:57:43 +08:00

30g 随便买个 intel 的高速 ssd 就可以了啊

Aug

2018-03-22 07:58:18 +08:00 via Android

分布式？

paranoiagu

2018-03-22 07:59:23 +08:00 via Android

这么多文件，参考 ccache 的存储方式。

XSugar

2018-03-22 08:01:32 +08:00 via iPhone

文件按文件名划分区块？索引会不会好些

vwhenx

2018-03-22 08:27:13 +08:00

搞个 64G 内存，存内存里面

mhycy

2018-03-22 08:43:16 +08:00

入库，瓶颈在文件系统

shakoon

2018-03-22 08:59:33 +08:00

上世纪末本世纪初这样的数据库存储方式在大型机里可是主流的呢，好多银行在用，VSAM 了解一下 →_→

Mutoo

2018-03-22 10:13:41 +08:00

taobao 当初为了实现高性能小文件的读取，自己搞了一套 tfs，后来还做成分布式的。你可以了解一下
https://github.com/alibaba/tfs

tigiyj

2018-03-22 10:39:57 +08:00

最近正好我这类问题同问,我是 4000 万文件,将近 500g,

tigiyj

2018-03-22 10:40:34 +08:00

最近正好遇到这类问题同问,我是 4000 万文件,将近 500g,

jasontse

2018-03-22 10:43:20 +08:00 via iPad

加内存 buffer 或者 Optane

dqh3000

2018-03-22 10:46:43 +08:00

如果把所有文件都对齐到一个统一大小，算是拿空间换时间，不知道会不会好一点？

换文件系统这件事儿实在是，并不容易……

yqylovy

2018-03-22 11:19:28 +08:00

可以考虑 rocksdb

sunny352787

2018-03-22 11:26:54 +08:00

我觉得还是扔库里先试试，常用的 redis、mongoDB，甚至 mysql 的读取性能其实应付一般的需求都可以，扔进去测试一下看看先，这么问没有统一答案的，而且随机读取可能没你想象的那么慢

dqh3000

2018-03-22 11:33:52 +08:00

@sunny352787

现在在 Postgresql 里

taobibi

2018-03-22 11:54:27 +08:00

SSD 组 RAID10，这样读取没问题，但是响应时间不太好说。

natforum

2018-03-22 15:07:54 +08:00

借楼问下 1300 多个文件 100g，怎么搞，原来想过 hadoop+hdfs，不知道可行性

macfee

2018-03-22 17:26:49 +08:00

tfs

zts1993

2018-03-22 17:29:30 +08:00

kv 推荐 rocksdb - 具体到实现可以看看 pika

msg7086

2018-03-23 05:52:10 +08:00

@natforum 简单点可以 GlusterFS。

iyg429

2018-03-23 09:18:43 +08:00 via iPhone

@binux 拷贝速度快和什么关系最大？硬盘和内存？

leekafai

2018-03-23 10:26:56 +08:00

加内存，全部放到内存里面，要读就从内存去读，这样是最快的。