spark 怎样处理后台需要被频繁更新的数据？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 2257 天前的主题，其中的信息可能已经有所发展或是发生改变。

目前在做的一个项目，用户上传 csv 文件后，可以对文件进行 ETL 操作。目前后台用 spark 处理，spark 把用户上传的文件创建 table 并缓存，用户每次对文件进行操作都要取出相应的 table 并更新。用户操作比较频繁，文件可能从几 m~几 g 不等，修改 table 和更新缓存的开销比较大，有没有比较好的优化方案？ web 开发里多个接口会修改或访问同一个比较大的对象，一般会怎么处理？

Spark

table

文件

更新

1 条回复 • 2018-10-21 03:25:45 +08:00

piggybox

2018-10-21 03:25:45 +08:00

可能需要支持频繁更新的存储，比如 Kudu