V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
fyooo
V2EX  ›  程序员

Python 写一个新媒体运营资料库工具合适么?

  •  
  •   fyooo · 2018-04-18 10:46:38 +08:00 · 2574 次点击
    这是一个创建于 2172 天前的主题,其中的信息可能已经有所发展或是发生改变。
    算是一个外包需求,不过我没有时间接,而且价格不高,帮同行问问。

    一个新媒体(主要是微信公众号)要给某小机构写每日热点分析什么的,但是预算不多,所以想用类 AI 技术来每天抓取几个网站的新闻做资料库,然后再让一个金融科班背景的员工复制粘贴一下。

    之前没有做过类似的事情,这里好奇跟大家讨教一下方案。

    1.抓取资料 - requests 库
    这块应该是 python 的强项吧,写个守护进程定时轮询目标网站的更新,当目出现命中特定 keyword 的文章时就 down 下来。

    2.资料归类 - ???库
    这个领域不熟悉,因为涉及到 NLP 的,大学时候学过的是计算资料库中每一篇文章的包含特定 keyword 个数,统计当天热点 keyword,然后把热点 keyword 的前几片文章内容提取。

    3. 拷贝内容
    人肉剪切合并文章内容发送


    我们大致讨论的技术细节如上,我觉得这个是伪需求,但是每周公众号阅读量却是该机构市场组的 kpi。。。。
    4 条回复    2018-04-18 15:11:34 +08:00
    male110
        1
    male110  
       2018-04-18 13:37:18 +08:00
    目出现命中特定 keyword 的文章时就 down 下来,这个算不上 ai 吧。
    关于分类,自动搞不定就用人工,抓到新的文章时,要人工手动分类。
    yedashuai
        2
    yedashuai  
       2018-04-18 14:35:10 +08:00
    ai 是个好东西,别管用没用上,只要达到效果就行,可以借这个多要点钱
    impresslee1992
        3
    impresslee1992  
       2018-04-18 15:06:58 +08:00
    这个被投诉 5 次封号了。。。。
    acepcs
        4
    acepcs  
       2018-04-18 15:11:34 +08:00
    1. 爬虫类需求,无脑上 python 就对了
    2. (伪) NLP 类需求,无脑用 python 也差不多
    之前实习做过类似的小工具。。不开玩笑每天工作 8 小时,5 天内能做好上线的节奏。。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2992 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 11:05 · PVG 19:05 · LAX 04:05 · JFK 07:05
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.