小弟实验室有多台 GPU 服务器,想做一下存储共享(方便大家跑实验,就不用数据和代码拷贝来拷贝去),之前是用的 NFS,所有服务器通过 NFS 挂载同一个大存储服务器的目录。慢慢的发现性能太差而且万一 存储服务器 GG 了就全完了。之前听过一个做分布式文件系统的教授的报告,大概明白一点意思,好像分布式文件系统性能会好一些,而且容错能力也高。
我们主要是 CV 方面的实验,所以训练模型的时候会有大量的图片读取操作,所以针对这方面,有什么好的文件系统推荐么?最好是能像 NFS 那样,挂载成系统文件目录,用起来和本地磁盘没什么区别的,因为组员水平参差不齐,复杂的操作不一定玩得来。
搜了一些帖子,看到有一些选择,比如 ceph,glusterfs,还有对象存储 minio 什么的,但是小弟之前没有接触过这方面,不太敢轻易选定。想请各位比较懂这块的,给个合适的而且维护也不算复杂的推荐。
再次谢过大家了。
1
rockyou12 2018-07-30 09:10:03 +08:00 1
minio 这种对象存储维护使用比较简单,但要入侵业务,去调用它的 api,性能还可以吧。
ceph 这种性能好,数据也安全,但维护部署非常困难,客户端挂载也要复杂很多。但 ceph rdb 挂载后就是个磁盘,不会入侵业务。ceph fs 就不要用了,用过的都觉得太慢了,ceph 对象存储没用过,不评价。 基本上 nfs 是综合最简单的……其他存储的都在某些方面要复杂很多…… |
2
Reficul 2018-07-30 09:11:26 +08:00 via Android 1
就几台机器还是磁盘上 raid 了老老实实用 NFS 比较适合吧😂
|
4
sw0rd3n 2018-07-30 09:27:57 +08:00 via iPhone
小规模 raid nfs 吧
大规模 lusture.. |
5
SorryChen OP |
6
c0878 2018-07-30 09:39:11 +08:00
实验室么 万兆网应该是标配了 SSD 阵列+NFS 最简单粗暴 开源的那些分布式存储 没点技术能力玩不转的 万一挂了数据都取不出来 还是 NFS 最方便
|