V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
Weixiao0725
V2EX  ›  奇思妙想

没人把小红书的数据爬下来,然后微调一个帮助写文案的垂直 gpt 吗?

  •  
  •   Weixiao0725 · 2023-04-13 05:10:18 +08:00 · 5000 次点击
    这是一个创建于 595 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近几天看了几位老哥分享的用自己的知识库微调的模型,看起来很靠谱的样子。所以产生这个想法。

    17 条回复    2023-06-06 10:39:22 +08:00
    wy315700
        1
    wy315700  
       2023-04-13 07:11:24 +08:00 via Android
    很刑
    haimianbihdata
        2
    haimianbihdata  
       2023-04-13 08:35:05 +08:00 via Android
    微信公众号。月小水长
    diagnostics
        3
    diagnostics  
       2023-04-13 09:22:21 +08:00 via iPhone   ❤️ 22
    +人们,离谱大事件,有个下头 it 男竟然要用我们的话来生成 AI 模仿我们。
    diagnostics
        4
    diagnostics  
       2023-04-13 09:22:48 +08:00 via iPhone
    爬虫犯法吧?
    Sting1226
        5
    Sting1226  
       2023-04-13 09:57:57 +08:00
    @diagnostics #3 又小红薯那味儿了。
    mrochcnnnnn
        6
    mrochcnnnnn  
       2023-04-13 12:18:17 +08:00
    这个事情是不是只能小红书做
    ashone07
        7
    ashone07  
       2023-04-14 08:23:01 +08:00
    感觉小红书很多内容是文字嵌在图片里的
    xieqiqiang00
        8
    xieqiqiang00  
       2023-04-14 17:42:51 +08:00
    @diagnostics 家人们谁懂啊
    jayin
        9
    jayin  
       2023-04-15 19:58:18 +08:00
    当然可以。问题是小红书很难爬。
    felixlong
        10
    felixlong  
       2023-04-15 21:11:56 +08:00
    做这个的当然是偷偷做了。谁会傻到说出来。OpenAI 都不敢公开他们的训练数据源。
    huzhizhao
        11
    huzhizhao  
       2023-04-17 02:13:19 +08:00
    家人们,谁懂啊……
    leefor2020
        12
    leefor2020  
       2023-04-17 13:39:32 +08:00
    家人们,咱就是说一整个大无语住了,竟然有人想要爬我们的私密信息,蒸虾头!
    sL83OdzP0RtI2l31
        13
    sL83OdzP0RtI2l31  
       2023-04-17 18:00:58 +08:00
    有的 我对象天天用这个
    PerFectTime
        14
    PerFectTime  
       2023-04-18 22:56:17 +08:00
    爬那辣鸡玩意干啥,全自动女拳机器人?
    kaddusabagei38
        15
    kaddusabagei38  
       2023-04-20 09:29:33 +08:00
    制造一台造粪机器?
    lchynn
        16
    lchynn  
       2023-04-24 21:06:36 +08:00
    @ashone07 先 OCR + 图像目标检测 ,然后分离出来的再做训练。或者直接丢给支持多模态学习输入的 GPT 4 ?
    skysmile
        17
    skysmile  
       2023-06-06 10:39:22 +08:00
    @xinchao 你对象用的 能不能推荐下呢
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1047 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 22:07 · PVG 06:07 · LAX 14:07 · JFK 17:07
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.