V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
Dogergo
V2EX  ›  分享创造

我把我和我老婆从认识到现在的聊天记录跑了个词云出来

  Dogergo · 136 天前 · 17743 次点击
这是一个创建于 136 天前的主题,其中的信息可能已经有所发展或是发生改变。

得益于开源项目:

https://github.com/LC044/WeChatMsg

现在导出微信聊天记录已经是一件相当简单的事情了。但是这个项目跑出的词云好像有点问题,好像聊天记录不完整一样。所以我去找了可以读取 SQLite 的软件,读了他解码出来的数据库文件。

执行 SQL:

-- MicroMsg.db 文件中的 Contact 表存的用户信息,先根据备注查微信 ID
SELECT UserName FROM Contact WHERE Remark=?
-- Msg.db 中的 MSG 表存的历史聊天记录
SELECT StrContent, localId, datetime(CreateTime, "unixepoch", "localtime") as CreateTime FROM MSG WHERE StrTalker = ? AND Type = 1 AND StrContent NOT like "%[%" ORDER by CreateTime asc

然后发现数据是全量的,但是词云不准确,不知道什么原因。迫于不想读源码,直接找了个词云工具,重新生成。

感谢开源项目:

https://github.com/fuqiuai/wordCloud
https://github.com/silsuer/wordcloud

上图

1 2 3 4 5

教程

一键提取微信聊天记录,生成 HTML 、Word 文档永久保存,还能生成微信年度聊天报告

微信聊天记录只是备份就太无聊了,一键生成属于自己的词云图,让我们玩点有意思的

注意事项

所用到的工具被我放在公众号里了,如果有兄弟感觉被冒犯,那对此我感到抱歉,请联系站长帮我移动到推广节点。

第 1 条附言  ·  136 天前

赶紧出来解释一下: 词云只是根据词频把一些词生成到一起的。实际上那几个词可能并不挨着,不要太污喂! 词云只是根据词频把一些词生成到一起的。实际上那几个词可能并不挨着,不要太污喂! 词云只是根据词频把一些词生成到一起的。实际上那几个词可能并不挨着,不要太污喂!

此外,公众号在教程的链接里,这里也放一个图片吧,那就。 1

123 条回复    2023-12-19 10:45:41 +08:00
1  2  
sunny352787
    1
sunny352787  
   136 天前   ❤️ 68
MD ,路过还能被电子脚踹一下...
YaD2x
    2
YaD2x  
   136 天前   ❤️ 4
方法学会了,请问老婆哪里找?
AFOX
    3
AFOX  
   136 天前 via Android   ❤️ 3
shit ,单身狗看不得这个,但是创意很好
littleJohn
    4
littleJohn  
   136 天前
省流:老公 老婆 老板 哈哈哈
pianjiao
    5
pianjiao  
   136 天前
图碎了。 公众号在哪儿
proxychains
    6
proxychains  
   136 天前
单身喵看不得这些
cheava
    7
cheava  
   136 天前   ❤️ 7
第一张图右臂部分有点意思
vagusss
    8
vagusss  
   136 天前
不错
Tumblr
    9
Tumblr  
   136 天前   ❤️ 57
第一眼这是看到了什么不干净的内容啊!!! 🙈🙊
webjourneyer
    10
webjourneyer  
   136 天前
这个有点意思
murmur
    11
murmur  
   136 天前   ❤️ 1
我想那个了
吃了

来!
在一起

jonahtan
    12
jonahtan  
   136 天前
有点意思
zfy941
    13
zfy941  
   136 天前   ❤️ 1
只看到了 老婆 老公 想要 给我
dddd1919
    14
dddd1919  
   136 天前
老婆 你 没有 这个
miemie666
    15
miemie666  
   136 天前   ❤️ 3
闭眼都知道要歪楼了
graetdk
    16
graetdk  
   136 天前
下一步,可以训练一个聊天 bot 了,可以用我们的这个服务: https://www.modihand.com/
我自己的例子: https://ai.greatdk.com/
Dogergo
    17
Dogergo  
OP
   136 天前
@YaD2x 啊,你们村没发吗,我们都是过年回去发的
Dogergo
    18
Dogergo  
OP
   136 天前
@AFOX 学会了就能撩妹了,先存一下,等着给她惊喜
Dogergo
    19
Dogergo  
OP
   136 天前
@pianjiao append 进来了
Dogergo
    20
Dogergo  
OP
   136 天前
@Tumblr 我裂开,这些词怎么会出现在一起的
Dogergo
    21
Dogergo  
OP
   136 天前
@murmur 我没有,我不是,别瞎说
Dogergo
    22
Dogergo  
OP
   136 天前
@zfy941 假装没看见就好了,也许我生成词云的时候应该屏蔽这些词
Dogergo
    23
Dogergo  
OP
   136 天前
@graetdk 登科大佬,好的,会看一下,生成数字人的自己
jonahtan
    24
jonahtan  
   136 天前
not support for macOS base on apple chip 😢
劝退
Tumblr
    25
Tumblr  
   136 天前
@cheava #7 你是咋知道小姑娘是背对你还是面对你的。 😏
ryalu
    26
ryalu  
   136 天前
单身狗手贱点进来了,你可真该死呀🐶
billzhuang
    27
billzhuang  
   136 天前
hahhahahahahahahahhahaha
goddamhucker
    28
goddamhucker  
   136 天前
鼠人看不得这些😭
Tezos
    30
Tezos  
   136 天前
emmmmmmm
angenin
    31
angenin  
   136 天前
买菜必涨价!!!
RobertLyu
    32
RobertLyu  
   136 天前
行了,我知道你们很恩爱了,带着我的祝福快快离开吧。🥲
MRG0
    33
MRG0  
   136 天前
qq 能实现吗,好像有消息漫游,比较狗屎
Donahue
    34
Donahue  
   136 天前
核凸 报警!!!🐶
wqhui
    35
wqhui  
   136 天前
特意切个代理看图
itianjing
    36
itianjing  
   136 天前
两年前求婚的时候也搞了这个,导出微信聊天记录废了好大的劲
stardew
    37
stardew  
   136 天前
@Tumblr #9 哈哈哈哈哈哈哈哈
DAGU1182810784
    38
DAGU1182810784  
   136 天前
哥们儿不拿咱们当外人儿啊
Hyschtaxjh
    39
Hyschtaxjh  
   136 天前
停用词过滤一下噢
szyp
    40
szyp  
   136 天前
https://github.com/myth984/wechat-report 两年前用过一个类似的
foreverpp50
    41
foreverpp50  
   136 天前
为什么聊天记录不用蓝奏云啊,阿里云盘还要登录才能下载
Dogergo
    42
Dogergo  
OP
   136 天前
@foreverpp50 蓝奏云不让我放 exe
jethroX
    43
jethroX  
   136 天前
我的全险半挂灯好像不亮了,能不能请你帮我去看一下?
foreverpp50
    44
foreverpp50  
   136 天前
@Dogergo 打包放不行吗
Dogergo
    45
Dogergo  
OP
   136 天前
@foreverpp50 可以去[github]( https://github.com/LC044/WeChatMsg)的 release 里下载,我回头想办法看看压缩了能不能把地址改一下
Dogergo
    46
Dogergo  
OP
   136 天前
@jethroX 你小子要创死我是吧
0xGnaixEuy
    47
0xGnaixEuy  
   136 天前 via iPhone
酷酷酷
pianjiao
    48
pianjiao  
   136 天前
看不见图 ,也不知道什么鬼
456789
    49
456789  
   136 天前 via Android
老公 老婆 我想 那个 嚯哈哈哈哈哈,呵 tui
Dogergo
    50
Dogergo  
OP
   136 天前
@foreverpp50 good ,感谢提供,已经放上了蓝奏云的地址
Dogergo
    51
Dogergo  
OP
   136 天前
@pianjiaohttps://imgur.com 图床的图,看不到的话你可以点教程里那个词云的连接,我在微信推文里也有放这个图
Dogergo
    52
Dogergo  
OP
   136 天前
@MRG0 不知道 QQ 怎么存的,没研究,你可以上 github 上搜一下
mh
    53
mh  
   136 天前
两年前看到过类似的帖子,当时我也弄了一下,还挺费劲的哈哈
cat9life
    54
cat9life  
   136 天前
这个有点意思 就是聊天记录不全了
cat9life
    55
cat9life  
   136 天前
@graetdk #16 请教可以使用 chatgpt 微调来训练吗?你的那个看起来不太聪明 哈哈
assiadamo
    56
assiadamo  
   136 天前
老婆我嗯了?
idealhs
    57
idealhs  
   136 天前
我想那个了
shm7
    58
shm7  
   136 天前
词云本身有开源的库,问题是你想从聊天记录提取些什么。
一般商业要提取一些关键词,你这都是 老婆我... ;)
palxie
    59
palxie  
   136 天前
我想那个了 真的一眼就看到
moeik
    60
moeik  
   136 天前
op 你好 我发现教程有断层啊,聊天记录解密了 导出为?,在词云加载过程中选的聊天记录是怎样的格式?
Dogergo
    61
Dogergo  
OP
   136 天前
@moeik
1.不用导出,解密完成之后`MemoTrace-0.2.7.exe`这个软件所在目录下会生成`app`->`dataBase`->`msg`文件夹,里边都是以.db 结尾的 Sqlite 数据库文件,把`MSG.db`和`MicroMsg.db`
2.把这两个 db 文件复制一下粘贴到词云软件解压出来的文件夹下的`db`文件夹里,然后运行词云软件就好了。可以看我生成词云那篇文章底部是有视频教程的
Martens
    62
Martens  
   136 天前
支持语音吗?聊天记录有很多语音
Rorysky
    63
Rorysky  
   136 天前
建议把 无法单独成语素的语气词过滤掉
Dogergo
    64
Dogergo  
OP
   136 天前
@shm7 感谢你的建议,这是我的下一步计划。根据词频设计出对应的年终报告。我现在只是简单看一下。
clifftts
    65
clifftts  
   136 天前
我为什么会被这个帖子强行拉进来,吃一波狗粮,wtf
Dogergo
    66
Dogergo  
OP
   136 天前
@Martens 这个要去看开源项目`https://github.com/SuxueCode/WechatBakTool`这个项目目前是已经实现了解密语音
Dogergo
    67
Dogergo  
OP
   136 天前
@Rorysky 嗯嗯,吃了没经验的亏,python 代码都是通过 pua gpt4 写出来的,感谢建议
dsggnbsp
    68
dsggnbsp  
   136 天前
省流:我 你 啊
KimiArthur
    69
KimiArthur  
   136 天前 via Android
导出简单吗?有没稍微详细点的原理解释?
echoyangjx
    70
echoyangjx  
   136 天前 via Android
逛 v2 还能吃狗粮
liqingyou2093
    71
liqingyou2093  
   136 天前
省流: 我想那个了
lele140
    72
lele140  
   135 天前
怎么屏蔽调一些语气助词,比如:啊,吧,哦
spaceman
    73
spaceman  
   135 天前
很酷,但是我看到了一句:“我想那个了。”
Dogergo
    74
Dogergo  
OP
   135 天前
@lele140 代码本身是支持屏蔽词的,我晚上回去打包个支持屏蔽词的版本吧
Dogergo
    75
Dogergo  
OP
   135 天前
@KimiArthur 原理复杂,操作简单。这和搞开发是一样的,尽可能降低用户侧的学习成本。要研究原理的话,可以去参考`https://mp.weixin.qq.com/s/4DbXOS5jDjJzM2PN0Mp2JA`
aitianci
    76
aitianci  
   135 天前
豆沙了😭豆沙了😭
StoneHuLu
    77
StoneHuLu  
   135 天前
有没有 qq 聊天记录的,我和我老婆都不用微信的
lixiangyang9b319
    78
lixiangyang9b319  
   135 天前 via iPhone
牛逼,感谢哦大哥
aaa5838769
    79
aaa5838769  
   135 天前
从聊天记录,看到了很多开车的记录。
iv2ex
    80
iv2ex  
   135 天前
好像没有 macos 的?
Dogergo
    81
Dogergo  
OP
   135 天前
@iv2ex 是的,目前 Macos 无法支持
Dogergo
    82
Dogergo  
OP
   135 天前
@aitianci 摸头,每个人都会有甜甜的恋爱的
maokg
    83
maokg  
   135 天前
可以统计群聊的记录吗?(化身产品经理
kakki
    84
kakki  
   135 天前
还好没看到 dirty talk
kumastudio
    85
kumastudio  
   135 天前
赛博狗粮
czfy
    86
czfy  
   135 天前 via Android
其实在 LLM 出来之后,分词这类中文 NLP 特有的中间过程已经变得没那么必要了…
Loserzhu
    87
Loserzhu  
   135 天前
我不吃牛肉(掏枪
edinina
    88
edinina  
   135 天前
给我都看兴奋了
AsyncX
    89
AsyncX  
   135 天前   ❤️ 2
我们也是你们 play 的一环吗
ovtfkw
    90
ovtfkw  
   135 天前
mac 微信不可以吗
bao3
    91
bao3  
   135 天前
Geekm 的浪漫。
跳一下 tone:我和我老婆的聊天记录,全是性相关的,还聊到过我想上她姐……
hertzry
    92
hertzry  
   135 天前
分词之后可以手动去掉一下没用的东西,然后再画图。
Dogergo
    93
Dogergo  
OP
   135 天前
@maokg 可以的,但是我没分析,你可以从 Msg.db 文件里找一找,看一下群聊名称对应的微信 ID
ChicC
    94
ChicC  
   135 天前
只看到了 老婆 老公 想要 给我
ttyhtg
    95
ttyhtg  
   135 天前 via Android   ❤️ 1
作为单身狗我居然敢点开,还是祝福楼主
programMrxu
    96
programMrxu  
   135 天前   ❤️ 1
祝福楼主了
mingring
    97
mingring  
   135 天前
我跑出来怕都是敏感词
beijiaoff
    98
beijiaoff  
   135 天前
我用的飞书文档的多维表格,可以自动生成词云。
Dogergo
    99
Dogergo  
OP
   135 天前
@ttyhtg 感谢您的友善,啊 Sir
Dogergo
    100
Dogergo  
OP
   135 天前
@bao3 真不把兄弟们当外人儿啊,你这个有点逆天的
1  2  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2882 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 59ms · UTC 07:32 · PVG 15:32 · LAX 00:32 · JFK 03:32
Developed with CodeLauncher
♥ Do have faith in what you're doing.