V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
eyp82
V2EX  ›  程序员

要设计一个准实时的数据流, 最后阶段每隔一分钟左右做一次入库, 这一分钟内积累的数据要暂存在哪?

  •  
  •   eyp82 · 2017-03-31 07:48:07 +08:00 · 2021 次点击
    这是一个创建于 2583 天前的主题,其中的信息可能已经有所发展或是发生改变。

    如题, 请教一下各位:

    最近要设计一个准实时的数据流系统, 基本的功能是接受数据源发过来的数据, 做一些清洗转换, 转换成 MySQL 的数据表格式, 然后入库. 入库打算采用异步准实时的, 大概每隔一两分钟做一次批量插入数据库的操作.

    请教大家, 这个时间间隔内接收到的数据, 怎么暂存(用什么库 /框架之类),会比较好一些, 现阶段暂时在考虑有没有比较简单的方案先跑起来再说; 另外如果以后要扩展, 要考虑可靠性(比如宕机尽量别丢消息)之类呢?

    多谢大家.

    第 1 条附言  ·  2017-03-31 19:23:54 +08:00
    多谢各位!
    6 条回复    2017-04-11 23:07:54 +08:00
    afpro
        1
    afpro  
       2017-03-31 07:50:23 +08:00
    看起来是 kafka 的菜?
    kulove
        2
    kulove  
       2017-03-31 07:55:09 +08:00 via iPhone
    redis kafka
    WhoMercy
        3
    WhoMercy  
       2017-03-31 08:34:35 +08:00 via Android
    一分钟数据量不大可以放内存。
    要宕机不丢数据,发送放得有重传机制,接收方得有持久化机制。各种消息队列+内存数据库,如 rocketMQ+Redis
    cjyang1128
        4
    cjyang1128  
       2017-03-31 09:52:14 +08:00
    flume + kafka + storm [滑稽
    bk201
        5
    bk201  
       2017-03-31 10:17:34 +08:00
    mq 就搞定了
    eyp82
        6
    eyp82  
    OP
       2017-04-11 23:07:54 +08:00
    谢谢大家, 最后用了某云服务的 message queue
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1111 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 23:26 · PVG 07:26 · LAX 16:26 · JFK 19:26
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.