V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
shidenggui
V2EX  ›  分享创造

三年后再起航,网文推荐系统 推书君,致力于解决书荒

  •  9
     
  •   shidenggui · 2019-10-15 13:17:47 +08:00 · 27826 次点击
    这是一个创建于 835 天前的主题,其中的信息可能已经有所发展或是发生改变。

    三年前在 v 站发过一个贴,介绍自己开发的网文推荐系统 https://v2ex.com/t/308827

    当时还是非常简陋的一个单网页托管到 daocloud,数据都是预先算好存到 redis,后面把功能挪到了公众号上,但是过了几个月 daocloud 不再允许托管容器,网页就挂了,再后面公众号出了点问题,一直没有修复。

    结果不知不觉就过了 3 年多,这三年的时间发现网文的推荐没什么太大的进展,书荒还是很痛苦,正好之前一段时间有空,就跟朋友一起重新花了点时间开发了网站 推书君,希望能做的更好一点。

    比较感动的是时隔 3 年重启公众号之后,还有关注者发消息给我说,等了那么多年终于又可以用了,这几年还是感觉我这个比较好用,找书很方便。后面私信聊了一下,竟然是 3 年前在 v 站发帖而关注公众号的 v 友,突然感觉自己还是做了一些稍有价值的东西。

    起名叫推书君,是觉得 ”推好书,只需要一个理由“。网文最棒的地方就是天马星空的想象力,正因为如此网文有各种各样的种类,每个人的口味也各有不同。有很多好书,作者投入了很多心血,因为不善于宣传、或者网站推广位有限,没有传达到对应的受众,导致作者难以为继,因此太监。作为读者,遇到一本对口味的书,结果因为成绩不理想而导致作者放弃,常常感觉很可惜,瑰丽的世界才刚刚展开一角,就落下了帷幕。

    网站目前还在起步阶段,很多功能也不完善,如果大家有任何建议欢迎反馈,为此建了一个 tg 群( 传送门 ),也欢迎大家过来一起讨论网文。

    之前在知乎发的一篇介绍推书君功能的文章,包括相似小说搜索,标签检索等 推书君功能介绍

    网站链接: 书荒_网络小说推荐 - 推书君

    推书君公众号:

    qr_small.jpg

    首页截图:

    首页.png

    第 1 条附言  ·  2019-11-11 14:36:20 +08:00

    周末花了一天时间制作了 推书君 的微信和 QQ 小程序版本,因为原生用的 vuejs,所以选了支持 vuejs 的 uniapp 小程序框架,整体感觉还是比较顺利的。小程序整体体验确实不错,比 web 顺滑很多。 qr-small.jpeg

    77 条回复    2019-12-13 09:36:58 +08:00
    a1415788620
        1
    a1415788620  
       2019-10-15 14:06:36 +08:00 via iPhone
    书友狂喜
    AntonChen
        2
    AntonChen  
       2019-10-15 14:08:16 +08:00 via Android
    关注了,可以介绍一下用了哪些技术吗?
    shidenggui
        3
    shidenggui  
    OP
       2019-10-15 14:40:57 +08:00   ❤️ 1
    @AntonChen 后端 Python + Django + PostgreSQL,前端 Vue + Nuxt + Typescript,里面一些算法用了 numpy 和 jieba
    vescape920
        4
    vescape920  
       2019-10-15 15:22:17 +08:00
    已关注
    qiayue
        5
    qiayue  
       2019-10-15 15:26:20 +08:00   ❤️ 1
    下一步就可能有人问楼主开源不
    shidenggui
        6
    shidenggui  
    OP
       2019-10-15 15:27:55 +08:00
    @qiayue 三年前的帖子已经有人问过了,不过目前看还没出现,看来还是有变化的。
    justin2018
        7
    justin2018  
       2019-10-15 15:42:45 +08:00
    不错
    iPhoneXI
        8
    iPhoneXI  
       2019-10-15 15:42:52 +08:00 via Android
    现在网文审查奇葩很多,不少好看的书都挂掉了
    paouke
        9
    paouke  
       2019-10-15 15:50:11 +08:00
    shidenggui
        10
    shidenggui  
    OP
       2019-10-15 16:00:54 +08:00
    @iPhoneXI 是的,起点有点丧心病狂
    @paouke 这个肯定不行啊,要是这也行的话,估计公众号已经挂了
    Motoi
        11
    Motoi  
       2019-10-15 16:06:08 +08:00
    不错喔
    zdnet
        12
    zdnet  
       2019-10-15 16:12:08 +08:00
    真不错!
    xunqin
        13
    xunqin  
       2019-10-15 16:45:01 +08:00
    希望能坚持到底
    lopetver
        14
    lopetver  
       2019-10-15 16:50:34 +08:00
    非常抱歉浪费了几条短信。建议短信接口加下验证
    shidenggui
        15
    shidenggui  
    OP
       2019-10-15 16:53:02 +08:00
    @lopetver 没事。一开始是有验证码的,后面感觉用户体验不太好就移除了,后面可能会考虑更加友好的方式。
    zjx1993
        16
    zjx1993  
       2019-10-15 16:53:35 +08:00
    @paouke 这个书费劲吧,搜不到的,通过 google 可以的
    huiyadanli
        17
    huiyadanli  
       2019-10-15 17:07:09 +08:00
    以前的相似度是很准呐。。。现在只能在公众号里面查相似度了吗,网页版没找到这个功能。
    shidenggui
        18
    shidenggui  
    OP
       2019-10-15 17:19:10 +08:00
    @huiyadanli 网页版也可以,你搜索对应的书,然后书籍详情下面就由类似书籍,点击更多就可以看到了。或者在首页搜索框,下拉有相似小说搜索
    huiyadanli
        19
    huiyadanli  
       2019-10-15 17:23:22 +08:00
    @shidenggui #18 没有显示相似度百分比。。。
    yzongyue
        20
    yzongyue  
       2019-10-15 17:31:13 +08:00
    前几个星期我就发现有可以用了, 幸好没删
    shidenggui
        21
    shidenggui  
    OP
       2019-10-15 17:40:29 +08:00   ❤️ 1
    @huiyadanli 这倒是,主要本来相似度算法是没有相似度百分比这个概念的,这个是我额外搞了一个算法来映射的,具体可以见 https://github.com/shidenggui/blog/issues/9 后面可能会淡化这个概念,因为有些相似度算法并没有办法进行这样的映射,后续改进相似度算法就会受到限制。
    qionnian
        22
    qionnian  
       2019-10-16 08:45:28 +08:00
    都是超链接到起点了吗
    shidenggui
        23
    shidenggui  
    OP
       2019-10-16 09:01:49 +08:00 via Android
    @qionnian 是的,都是链接到原站点。一些失联的书是直接跳到百度搜索
    haoo
        24
    haoo  
       2019-10-16 09:54:58 +08:00
    赞一个。

    几年前加入过一个创业公司做过一段时间的推书网站 ,后来转型了。

    但一直对这类网站心心念念,以至于我自己还专门在知乎和公众号上做起来个人推书的业务。

    楼主需不需要合伙人或者助手,可以加我微信聊聊:ZF9rbXkxMg==
    shunia
        25
    shunia  
       2019-10-16 10:36:37 +08:00
    既然有用户信息了,那可以增加一个标记功能,记录”看过的“,这样推荐可以更符合书荒找书的需求。
    我试着匹配了几本,发现推荐的基本都是看过的。

    那么即便过滤了看过的书,还有一个关键是推荐的质量问题。就我看到的结果来看,好多书的标签不够准确,导致推荐结果不够匹配。

    另外昨天刚好翻看了一下两本早就看完的书择天记和剑王朝,顺便测试了一下推荐功能,发现推荐的结果总体上都是喜欢的类型,挺好的。希望作者再接再厉,继续强化推荐功能。

    可惜的是目前还没有通过推荐找到想看的书。
    lelovelife
        26
    lelovelife  
       2019-10-16 10:54:28 +08:00
    关注一波,顺便安利下我做的 APP - 柚子书。把这个 APP 当做专攻网文的豆瓣就行,可以记录自己的网文历程。
    具体的可以看这个帖子: https://www.v2ex.com/t/609492

    感兴趣的朋友可以下载下玩玩
    lelovelife
        27
    lelovelife  
       2019-10-16 10:55:03 +08:00
    链接应该是这个: https://www.v2ex.com/t/604061
    shidenggui
        28
    shidenggui  
    OP
       2019-10-16 11:23:35 +08:00
    @lelovelife 之前看到了,感觉你们的界面设计的很精美,可惜没有 iphone,不然还想体验下
    shidenggui
        29
    shidenggui  
    OP
       2019-10-16 13:07:41 +08:00
    @shunia 多谢建议,之前在排行榜和搜索界面已经有过滤已看的功能,不过相似书籍倒是还没加入,下次有空加下。目前标签是通过算法抽取的,有时候不是很准,这个只能等用户多了会慢慢越来越准。
    Ky1inZhang
        30
    Ky1inZhang  
       2019-10-16 13:13:36 +08:00 via iPhone
    @shidenggui 蛤,我刚想问楼主标签的事,抽取的呀,我的小说池还停留在盗墓笔记系列,同时期有本藏地密码,一直想看同类的,但是搜了一下就只有侦探标签,相去甚远哎。用户多了会慢慢准,是说用户可以添加标签么,像 P 站
    shidenggui
        31
    shidenggui  
    OP
       2019-10-16 13:14:32 +08:00
    @Ky1inZhang 是的,标签是可以用户添加的,这个后面多了找书就很方便了
    tfdetang
        32
    tfdetang  
       2019-10-16 15:18:30 +08:00
    支持下食灯鬼大大的项目,被 easytrader 项目骗入坑,从产品转成了算法岗。很好奇这个是怎么推荐的
    shidenggui
        33
    shidenggui  
    OP
       2019-10-16 16:12:37 +08:00
    @tfdetang 没想到这里能看到 easytrader 的用户。其实我也是现学现用,具体可以看《推荐系统实战》,我是根据具体情况对算法做了一些修改。有兴趣的话可以加个好友,公众号里有微信号。
    LpLp
        34
    LpLp  
       2019-10-16 16:37:04 +08:00
    楼主开源不
    a1415788620
        35
    a1415788620  
       2019-10-16 17:33:47 +08:00
    @qiayue 果真出现了。。
    wssy
        36
    wssy  
       2019-10-16 19:17:43 +08:00 via Android
    38 的收藏。
    现在网文还是挺受欢迎啊,我以为大家工作了就不会再想看这东西了
    blueset
        37
    blueset  
       2019-10-17 00:04:19 +08:00
    支持楼主。这年头能在大大的公众号二维码旁边发现网页版服务的链接已经很难得了。
    helloh1n1
        38
    helloh1n1  
       2019-10-17 16:51:51 +08:00
    在现有用户历史数据不足的时候,可以试试强化学习的推荐框架,不失为一种冷启动问题的解决思路
    Aether
        39
    Aether  
       2019-10-17 18:36:41 +08:00
    什么?书荒?我缺的是书吗?我是缺时间 T_T
    (请勿 diss 我的无意义回复)


    @wssy 可能娱乐是硬需求吧。
    Unknowncheats
        40
    Unknowncheats  
       2019-10-18 12:55:20 +08:00 via Android
    書荒好久了,還是我的愛好太偏了
    balabalaXMX
        41
    balabalaXMX  
       2019-10-18 17:53:22 +08:00
    所以楼主的数据是哪里获取?爬虫吗?
    imxieke
        42
    imxieke  
       2019-10-19 14:06:04 +08:00
    同问楼主数据来源 另外请教楼主敏感数据怎么处理的?
    就向 #9 老哥说的书, 很多根本就不知道的不合规怎么过滤掉?
    ningque1993
        43
    ningque1993  
       2019-10-20 22:08:08 +08:00
    可以起点的书还是要收费看,白嫖看书习惯了
    shidenggui
        44
    shidenggui  
    OP
       2019-10-23 14:05:32 +08:00
    @helloh1n1 多谢指教,现在算法还很简单,就是手撸的协同过滤,后续会花时间在研究下。
    @imxieke @husiyu1994 都是公开数据啊。至于敏感数据的话,本身爬的网站就不会有敏感数据。
    wolfan
        45
    wolfan  
       2019-10-23 14:09:03 +08:00 via Android
    习惯性笔趣阁白嫖。。。
    倒是想一款可以过虑贴字内容的 chrome 应用。
    Kafurtan
        46
    Kafurtan  
       2019-10-25 11:47:15 +08:00
    打不开呢
    shenyangno1
        47
    shenyangno1  
       2019-10-26 06:53:33 +08:00 via Android
    很棒!赞一个!
    luhe
        48
    luhe  
       2019-10-26 20:58:27 +08:00
    看到刘慈欣,遮天,我就收藏了
    ty89
        49
    ty89  
       2019-10-28 10:30:53 +08:00
    爬虫的话,楼主可能要注意了
    banliyun
        50
    banliyun  
       2019-10-28 11:18:11 +08:00
    很棒!赞一个!
    LongZeGaLi
        51
    LongZeGaLi  
       2019-10-28 12:33:52 +08:00 via iPhone
    已关注
    yyaadet2002
        52
    yyaadet2002  
       2019-10-30 18:07:51 +08:00
    楼主,加个微信,看看能不能合作。我是不俗,分析一下的作者。wx: yyaadet2003
    zeromake
        53
    zeromake  
       2019-10-31 03:55:50 +08:00 via Android
    @shidenggui
    果然是大佬,自己强行去看推荐系统实战,根本看不懂,不如说主要是数学拖了后腿,有什么合适的补数学的方法吗?
    shidenggui
        54
    shidenggui  
    OP
       2019-10-31 09:29:17 +08:00
    @zeromake 我数学也不怎么样,网站用的也是里面比较简单的一些算法。毕业后的数学学习也就是后面看过一本微积分的教材,稍微捡起了一点。
    helloh1n1
        55
    helloh1n1  
       2019-11-01 15:01:21 +08:00
    @shidenggui 因为一开始你的数据是爬虫来的,自己没有保存个性化的用户数据,用协同过滤类的方法很容易吃数据稀疏问题的亏。所以我建议在早期推荐中用基于强化学习的方法试试,比如 bandit 模型。强化学习框架简单,应该很好理解。
    creanme
        56
    creanme  
       2019-11-04 10:06:07 +08:00
    这个和优书网有啥不同?
    lzxgh621
        57
    lzxgh621  
       2019-11-04 10:07:26 +08:00
    随便看了看,感觉就是起点的月票榜 /点击榜,没有特别的内容。
    echo1937
        58
    echo1937  
       2019-11-04 10:20:42 +08:00
    最近有没有什么爽文可以看的,有点提不起劲。
    Removable
        59
    Removable  
       2019-11-06 10:14:59 +08:00
    不错不错,先收藏了再说
    shidenggui
        60
    shidenggui  
    OP
       2019-11-06 12:54:13 +08:00
    @creanme @lzxgh621 目前比较好玩的是标签系统和相似小说推荐。
    leeshong27
        61
    leeshong27  
       2019-11-07 17:44:57 +08:00
    习惯优书了
    StrongNoodles
        62
    StrongNoodles  
       2019-11-12 09:30:45 +08:00
    一般都是起点上找书,看看楼主的这个怎么样
    guanhui07
        63
    guanhui07  
       2019-11-12 10:29:23 +08:00
    已关注
    leiyu
        64
    leiyu  
       2019-11-15 15:09:36 +08:00
    要是能直接看就爽歪歪了或者有个链接跳转
    shidenggui
        65
    shidenggui  
    OP
       2019-11-15 15:13:02 +08:00
    @leiyu 你点击小说详情页离得 阅读 就可以跳转到正版网站的章节列表啊
    laycher
        66
    laycher  
       2019-11-26 13:13:20 +08:00
    推书 是分享功能?我以为是推到 kindle 上。
    bbroot
        67
    bbroot  
       2019-11-26 15:16:05 +08:00
    哎 把我的 tuishu.vip 域名卖给你吧?
    shidenggui
        68
    shidenggui  
    OP
       2019-11-27 09:28:00 +08:00
    @laycher 推书是指小说推荐,推到 kindle 涉及到版权风险了 @bbroot 多谢,不过过暂时还没经历运营好几个域名
    AmosAlbert
        69
    AmosAlbert  
       2019-11-28 10:31:48 +08:00
    楼主,开源不
    shell314
        70
    shell314  
       2019-12-02 09:42:02 +08:00 via Android
    支持一波
    tsening
        71
    tsening  
       2019-12-05 17:44:39 +08:00
    可以,支持一波
    evilhero
        72
    evilhero  
       2019-12-07 12:02:10 +08:00 via Android
    @iPhoneXI 网文不要好书,只要爽歪歪就完事了。编辑认为网文你写的有深度谁看啊
    shunia
        73
    shunia  
       2019-12-10 11:26:07 +08:00
    @shidenggui 小程序多点了几层,到了某一层突然就点了没反应了。可以稳定复现。
    另好多书没有封面,有点可惜。
    shidenggui
        74
    shidenggui  
    OP
       2019-12-11 09:32:57 +08:00
    @shunia 看了下,小程序限制页面深度只能为 10 层,后面考虑超过十层的时候情况路由记录,这样可以缓解这个问题。书的封面的话,有些书年代久远封面已经不可追溯了。
    nrtEBH
        75
    nrtEBH  
       2019-12-11 09:57:20 +08:00
    个人项目不错 不过看网文这种浪费时间的事情少做为好
    xrxb
        76
    xrxb  
       2019-12-11 14:09:20 +08:00
    都是网文吗,有没有推荐一些有营养的书籍
    shidenggui
        77
    shidenggui  
    OP
       2019-12-13 09:36:58 +08:00
    @xrxb 可以关注我的个人公众号「食灯鬼」,会分享我的读书笔记,最近的两篇是关于《 Elon Musk 》和《美学浅说》,文章可见 https://mp.weixin.qq.com/s/9vhfXfyswzZZ-dBCWvwO0A
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1013 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 54ms · UTC 20:06 · PVG 04:06 · LAX 12:06 · JFK 15:06
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.