V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
chickplilita
V2EX  ›  问与答

有人了解过梁博的 THUIRDB 这个东东吗? 每秒查询 112 万次,美军在用。

  •  
  •   chickplilita · 2018-12-09 22:30:53 +08:00 · 4749 次点击
    这是一个创建于 2187 天前的主题,其中的信息可能已经有所发展或是发生改变。

    这两天刚刚文本细读研究了一下梁博的微博,发现了这么个好东西。据说梁博的爬虫底层也是用这个数据库的。梁博之后也没再分享了。但是看美军据说在用?

    1. 2013-01-08 单机,从空库开始,插入 1 亿条微博长度的 key-value paire,耗时 5m26s,每秒插入 30 万条,把这 1 亿条微博随机 query 出来,并写入磁盘,耗时 1m29s,每秒查询 112 万次。 很快就要发布和大家见面啦,这次不采用 THUIRDB 的推广方式,我们换个花样。对了这个 DB 的名字,马老师钦定叫#THUIRDB-D#。D 表示动态的意思
    2. 回复 @果栋布丁: THUIRDB 是单机 100 亿。。可执行程序的 size,压缩比,速度,都完胜 leveldb 的。现在 thuirdb 已经在微博寻人上经受了很多考验,时机成熟我就开放自由使用,开源尚无时间表,因为现在开源,也没有意义,没有 feel。。 //@果栋布丁:和梁总的比呢? 梁总的也开源吧。 @梁斌 penny
    3. 2011-06-25 有 server-client 概念的 DB 是 TT,MemcacheDB,Redis,Mongodb 等 include 一个.h 文件,link 若干.lib 的内嵌概念的 DB 应该是 BDB,TC,LevelDB,THUIRDB 等。要把这两票人马分开
    4. 2011-05-24 前方捷报传来,查询速度提升 250%( 2.5 倍)( 10 万量级搜索耗时由 0.268 降低到 0.076s,不计读盘时间),解压速度十分给力。索引结构压缩方面,由 45k 降低到 24k,在此前压缩的基础上,再压掉 46%(21/45)。详细大数据量测试结果等 @THUIRDB 给出。理论上 100 亿条数据的索引差不多能从 2.5G 降低到 1.35G 。
    5. 2011-05-16 祝你成功 //@THUIRDB:另外 THUIRDB 做库过程可以看做是线性,非常快,我真希望有这么一个环境能够让我做这种顶峰体验啊 //@THUIRDB:假定一个 100 亿量级的数据集,那么索引不会超过:10G*3bit/8=3.75GB,也就是我曾说的,在一个 4G 内存的服务器上,可以支撑 100 亿的 KV 查询,每次查询只 touch 一次磁盘。
    6. 2011-05-15 今天差不多了,该回家了 //@THUIRDB:BDB 设了 3.5G 内存的 cache,做库时一直在内存中,最后才写库,因此很快,特此说明。
    7. 2011-05-15 转 //@THUIRDB:库文件小于原始语料,意味着可以在更大程度上让数据库能换入内存,例如如果一台测试机是 1G 内存,则 thuirdb 可以很容易全部加载进内存,而其他数据库,则存在部分无法加载到内存,这样总会有一定比例的数据去磁盘中读,速度必然慢。

    其他线索摘抄到 pastebin 上了 https://pastebin.com/vyBnn3KV

    13 条回复    2018-12-10 13:19:49 +08:00
    KasuganoSoras
        1
    KasuganoSoras  
       2018-12-09 22:38:52 +08:00 via Android
    没了解过
    打破 0 回复惨案
    hugee
        2
    hugee  
       2018-12-09 22:43:14 +08:00 via Android
    不认识,不了解,不过听起来很牛逼的样子。
    chinvo
        3
    chinvo  
       2018-12-09 23:03:44 +08:00
    从来没听说过,稍微调查了下

    50,000 us dollars for a company

    并不提供个人授权

    而且之前多次谈到开源也没实施
    Mohanson
        4
    Mohanson  
       2018-12-10 01:18:44 +08:00 via Android
    美军…美军…美军…
    Solace202
        5
    Solace202  
       2018-12-10 07:37:48 +08:00 via Android   ❤️ 1
    只认识那个唱《男孩》、《日落大道》的梁博。。。
    donyee
        6
    donyee  
       2018-12-10 08:40:32 +08:00
    没有经过大规模战役检验,你也敢拿来使用;自己研究的话应该可以;(流泪...
    dengtongcai
        7
    dengtongcai  
       2018-12-10 08:51:45 +08:00 via iPhone
    只知道 leveldb …
    dengtongcai
        8
    dengtongcai  
       2018-12-10 08:52:21 +08:00 via iPhone
    再说收费的也没机会接触😂
    iden
        9
    iden  
       2018-12-10 09:52:59 +08:00
    这是清华大学 IR 组的项目之一: http://www.thuir.cn/funding/
    iden
        10
    iden  
       2018-12-10 09:55:47 +08:00
    这个组在 SIGIR 上还获得过 student best paper award,在 IR 领域是很牛的组了。
    shellcodecow
        11
    shellcodecow  
       2018-12-10 10:04:30 +08:00
    我连发音都读不出来. 算了
    chickplilita
        12
    chickplilita  
    OP
       2018-12-10 10:19:47 +08:00
    @iden #10 牛
    hearfish
        13
    hearfish  
       2018-12-10 13:19:49 +08:00
    https://github.com/pennyliang/social/blob/master/thuirdb/thuirdb.h

    “ The most siginfication constrain of Thuid-db is that it cann't support inserting keys after building, and the second constain of it is inserting must make sure that the key is ascending.”

    不说别的,这就是个基于树的查找吧,还是不可更改内容的那种
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   6025 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 02:06 · PVG 10:06 · LAX 18:06 · JFK 21:06
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.