场景:用户提交任务,后端调用算法求解器进行任务计算(两大类型的任务),然后求解过程中会陆续产生大量的结果数据,以 bin 文件及 json 文件的形式写在了本地,然后我会把 bin 文件以及 json 文件上传到云端存储桶中,然后把 json 文件的路径记到数据库中,我使用的是腾讯云的 COS 存储桶。
这两大类任务类型其流程分别是:
第一种:
第二种:
最近开始使用 http2 ,之前一直使用的 http1.1 发现情况 1 并发受阻非常慢,使用 http2 就解决了队头阻塞的问题,然后就发现换 http2 之后的瓶颈是带宽,就考虑提高带宽利用率,说白了就是 bin 文件能否继续优化,有什么其他的文件能够替换 bin 文件,让文件大小更小,这样传输就会更快
最近几天在调研 parquet ,结果发现好像无法得知我想要的数据在 parquet 文件中的位置,这样就无法在云端直接通过 range 获取数据片段
所以想请教下各位佬,有没有什么合适的文件格式满足下面几条条件:
1.比 bin 文件更小(即拥有更好的压缩效果)
2.能够直接从云端 cos 中获取数据片断
3.适合频繁的数据追加操作
4.高效的数据读取
PS:类型一的任务不把所有文件写进一个 bin 文件中也是因为该类型会有频繁的增删改操作,在一个 bin 文件中难以处理数据
这是我想到的方案,或者各位大佬有没有其他更好的方案提供,谢谢各位佬的观看!
1
mynameisSimple 324 天前
这个头像好眼熟,大佬是不是在北京的 zy ?
|
2
AboPlus OP @mynameisSimple zy 是人名吗,是的话就不是啦
|
3
mynameisSimple 317 天前
@AboPlus 是公司名 hhh
|
4
dode 219 天前
nginx 可以给文件进行 gz 压缩吗,压缩比多少
|