V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
NeezerGu
V2EX  ›  Big Data

100G 左右数据, mysql 理论上可能会比大数据引擎快吗?

  •  
  •   NeezerGu · 2021-10-13 17:16:52 +08:00 · 2028 次点击
    这是一个创建于 1135 天前的主题,其中的信息可能已经有所发展或是发生改变。

    跟朋友闲聊突然想到,因为是做数据分析的,对底层引擎就不太懂啦。

    比如,980pro 4 条组 raid 0 ( YouTube 上有视频,https://www.youtube.com/watch?v=OCGguruZyrw&t=413s 甚至直接 256G 内存,拿 120G 内存当硬盘(一时之间忘了这个名词)

    用 mysql 或者 clickhouse,对比 spark 、presto 等,会存在前者更快的可能吗?

    13 条回复    2021-10-14 10:53:54 +08:00
    paopjian
        1
    paopjian  
       2021-10-13 17:32:12 +08:00
    这要干的活都不是一个事吧
    NeezerGu
        2
    NeezerGu  
    OP
       2021-10-13 17:44:24 +08:00
    @paopjian 的确不是一个。
    正常来讲大厂也不可能用关系型数据库来做数分。
    只是好奇如果是小厂,数据量不大的情况下,如果有人维护,mysql 等是否可能战胜大数据引擎
    clf
        3
    clf  
       2021-10-13 17:49:11 +08:00
    mysql 是关系数据存储。

    clickhouse 是数据列存储,以列做统计分析。

    spark 是计算引擎(分析工具),数据存储是 HDFS ( Hadoop 模块)。
    misaka19000
        4
    misaka19000  
       2021-10-13 17:53:23 +08:00
    快,指的是查询快,还是写入快,还是分析快,还是计算快
    NeezerGu
        5
    NeezerGu  
    OP
       2021-10-13 18:13:43 +08:00
    @misaka19000 查询快,
    粗暴点假定不需要 join,100G 表进行 group by 的 sum 、avg 运算
    leonme
        6
    leonme  
       2021-10-13 19:04:33 +08:00 via iPhone
    @NeezerGu 100g 对应多少行数据呢?
    NeezerGu
        7
    NeezerGu  
    OP
       2021-10-13 19:36:49 +08:00
    @leonme 对这方面确实不够敏感 doge,我看了下一个现成的表,9 个字段(没有很长的文本字段),一天大概 300w 行,200M,要不就以这个为例?
    那大概就是 150000W 行
    billlee
        8
    billlee  
       2021-10-13 22:29:40 +08:00
    clickhouse 和 mysql 不是一个类型的啊,clickhouse 针对查询建表,比 spark 快是没问题的吧?
    Jooooooooo
        9
    Jooooooooo  
       2021-10-13 22:53:06 +08:00
    做什么事快?
    noqwerty
        10
    noqwerty  
       2021-10-14 01:53:49 +08:00
    ClickHouse 和 Spark 还能勉强比一下,MySQL 跟这两个真不是干一个活的: https://h2oai.github.io/db-benchmark/
    noqwerty
        11
    noqwerty  
       2021-10-14 01:56:10 +08:00
    这里有些 benchmark 的文章可以参考一下: https://github.com/ClickHouse/ClickHouse/issues/22398
    NeezerGu
        12
    NeezerGu  
    OP
       2021-10-14 10:53:35 +08:00
    @noqwerty 感谢
    NeezerGu
        13
    NeezerGu  
    OP
       2021-10-14 10:53:54 +08:00
    @Jooooooooo 就像上面说的。
    查询快,
    粗暴点假定不需要 join,100G 表进行 group by 的 sum 、avg 运算
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3380 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 10:58 · PVG 18:58 · LAX 02:58 · JFK 05:58
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.