tf2
V2EX  ›  微信

“微信的开发人员根本就不懂该怎么储存数据”

  •  
  •   tf2 · Jun 30 · 2379 views
    26 replies    2026-07-01 15:29:06 +08:00
    cpstar
        1
    cpstar  
       Jun 30
    用 grep 是我没有想到的,思路很清奇。。。。

    但是把文本拼接为上下文,然后按照 RAG 的逻辑向量化,好像。。。我不知道,只是突发奇想
    xtreme1
        2
    xtreme1  
       Jun 30
    如果真这样实现, 被标题这样喷的次数应该远多于现状..
    rpman
        3
    rpman  
       Jun 30
    都很抽象,不知道如何喷起
    wudaye
        4
    wudaye  
       Jun 30
    虽然但是,至少现在微信的聊天记录搜索不会像 telegram 一样狗屎
    changnet
        5
    changnet  
       Jun 30
    用 grep 是不太行,因为 grep 是纯文本匹配,精度较低。比如你想搜索某个群的聊天信息,会 grep 出其他群的,然后又需要一大堆机制去排除,而且还要做各种按规则删除就麻烦。况且在手机上 grep 并没有服务器那么高性能。

    但微信占的空间和其他聊天软件相比确实离谱,肯定是可以优化的
    tf2
        6
    tf2  
    OP
       Jun 30
    @changnet 你不会用 grep 。。。。
    zhywang
        7
    zhywang  
       Jun 30
    @cpstar 用户又不需要语义搜索,向量化没意义
    yidinghe
        8
    yidinghe  
    PRO
       Jun 30
    微信占空间的又不是文本,所以不要纠结文本。
    june4
        9
    june4  
       Jun 30
    @changnet 神 tm 全文扫精度低,可以说是精度最强最灵活。另外都用纯文本文件了,明显是群和个人 1 对 1 都要分文件存,否则删除没法做。
    xiaoshancom
        10
    xiaoshancom  
       Jun 30 via Android
    曾经有人说 正则很简单
    GyroZeppeli13
        11
    GyroZeppeli13  
       Jun 30
    @wudaye 老黄历了,telegram 几个礼拜前终于把这块功能完善了。
    wy315700
        12
    wy315700  
       Jun 30 via iPhone
    你们大概是没见过纯文本记录几十 G 的
    我从 2015 年到现在的微信记录都留着

    时不时要回去查的
    est
        13
    est  
       Jun 30
    @wy315700 wiki 百科都不如你聊得多。
    Y25tIGxpdmlk
        14
    Y25tIGxpdmlk  
       Jun 30
    这人是天才?
    daysv
        15
    daysv  
       Jun 30
    想了想,也不是不行
    unclemcz
        16
    unclemcz  
       Jun 30 via Android
    @Y25tIGxpdmlk 你是说云风?在我们那个年代,他是个神一样的存在。
    Ei1l
        17
    Ei1l  
       Jun 30
    大道至简啊.grep 一下啊.
    Maboroshii
        18
    Maboroshii  
       Jun 30
    微信固然是烂,但一般的团队,用自研存储方案会更崩
    Fading2276
        19
    Fading2276  
       Jun 30
    @Y25tIGxpdmlk 我觉得他应该是个天才吧。
    zxwy
        20
    zxwy  
       Jun 30 via iPhone
    微信其它的我都能忍,但不能自定义提示音真的是傲慢,多人在一起的时候以来消息大家都有下意识的看下手机
    IvanLi127
        21
    IvanLi127  
       20h 23m ago
    @wudaye tg 前一两个月不是改进了嘛
    wy315700
        22
    wy315700  
       16h 13m ago via iPhone
    @est 很多一眨眼就 999 的群,还没法删,比如有时候要买点啥,想起来八年前在某个群里聊过,然后就可以回去翻记录看看当时怎么推荐的
    changnet
        23
    changnet  
       13h 27m ago
    @june4 你说的都对,grep 什么都能干。按群分,按个人分,最后还要按日期分,然后因为有引用什么的,还要加各种各样的标记。然后就会发现还不如微信现在的机制
    cpstar
        24
    cpstar  
       12h 40m ago
    @zhywang 7# 你还别说,忘了当时用了哪个词语了,还真是需要语义搜索
    gyb997997
        25
    gyb997997  
       8h 54m ago
    yf 真的在这个领域是血外行。当初我做 im 的时候,我拿到代码的时候,发现爱第一个版本就是一个自己 cosplay 的存储引擎,后来被聊天记录查询需求来回拷打,最后发现就是一个 sql 引擎。当时,就是 sqlite 合适,而且第一个版本还不加密,用别的办法模拟做的全文搜索(不是 sqlite 内生支持的)。即便是功能有缺失,也要迁移到 sqlite ,原因就是 1, 稳定,比我们自己的 cosplay 好的多的多 2, 我们的使用模式,就是 sql 的模式,需求都基本可以 cover 。3, sql 接口比较统一和好维护。整个这个项目是 十几年前的技术情况,所以别跟我唠 ai codeing 的嗑。

    老登味儿是怎么来的呢?虽然我跟 yf 一边大,但是我认知的老登应该是保持敬畏, 应该是 always climbing 。而不是,用过往领域的技术经验来到处 外延,没有搞清楚问题的来龙去脉 就各种 cosplay 技术上帝
    tf2
        26
    tf2  
    OP
       7h 46m ago
    @gyb997997 你这中文跟谁学的。。。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2892 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 61ms · UTC 15:15 · PVG 23:15 · LAX 08:15 · JFK 11:15
    ♥ Do have faith in what you're doing.