V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
Ariagle
V2EX  ›  程序员

[招募] 萌否业余项目寻求负责人及技术合作伙伴,欢迎有余力的朋友来挑战

  •  
  •   Ariagle · 2013-03-11 20:14:29 +08:00 · 6862 次点击
    这是一个创建于 4305 天前的主题,其中的信息可能已经有所发展或是发生改变。
    萌否是一个动漫 ACG 垂直领域的业余项目,我们团队一直在用业余时间做这个项目,并不以盈利为目的。我们正在为主站开发新版程序(beta4),但人手不足,我们希望能有同好加入进来,负责独立的模块。

    这是业余项目,并不能给你带来薪水,但它可以给你一个自由展示才华的机会。我们不会逼你赶工,没有强制的 Deadline 。同时,我们也希望你具有独当一面的技术水平,能够 hold 得住一个独立的模块甚至是作为其中一个项目的负责人。


    1、
    项目:图片存储及处理系统
    人数:1
    语言:NodeJS,当然你也可以用 Python 或 PHP
    描述:
    一个类似于又拍云存储或 Picasa 的图片处理系统,其基本功能是,能够根据 URL 参数来自由裁剪图片。 V2EX 上已有童鞋做出了类似的 PHP 版本: /t/61924 ,但我们希望你最好能够用我们熟悉的 NodeJS 来做。它将成为一个通用平台为大家所用,但同时也需要制定一些专用接口来为萌否系列站点更好地服务。我们将会有独立的域名和专门的服务器来运行这个项目,所以我们希望你最好能够独当一面,最理想的情况是——在拿到服务器权限后,你能将剩下的技术问题都做好。
    (PS1 当然不会说扔给你后就不管了,我们也会团队互助,但若能独立负责好自己的领域就最好了)
    (PS2 该平台暂时不会有面向普通用户的交互,所以不必担心网站界面等问题)


    2、
    模块:定向爬虫
    人数:1
    语言:NodeJS
    描述:
    并不是要做一个通用的爬虫系统,而是针对指定的网站,定时抓取指定的内容。要抓的内容将随网站类型的不同而不同,有的可通过 API ,有的得分析 HTML ,所以你可能要为每一种网站写一个匹配模版,但我相信通过 NodeJS 和 jQuery 可以轻松实现。有些网站可能会有反爬处理,你需要对此有所准备。之所以限定用 NodeJS ,是因为我们对它更加熟悉,新版萌否主站的部分后端也是用它。


    3、
    模块:不定向爬虫
    人数:1
    语言:NodeJS
    描述:
    我们希望这个爬虫,能够尽可能地获取到一些新的实体内容。这个实体的标准是,它可以拿来用作百科词条。例如,一部新的作品,以及该作品下的虚拟角色、工作人员。由于目前并没有哪个网站拥有非常系统的数据(即便是维基百科也没有很好的索引,难以着手),所以你可能需要从多个网站中寻找数据并整合。最基础地,你需要获取到实体的名字;更进一步,最好能拿到它的描述信息;如果你更牛逼,最好能获取到实体之间的关系。由于内容将涉及到中、日、英等语言,所以你需要有一定的数据清理及整理能力。我们希望你最好本身就是一个 ACG fan ,这样才能保证你能找到有效的数据来源。


    4、
    模块:实体识别
    人数:1~2
    语言:NodeJS 或 不限
    描述:
    对于爬虫收录回来的海量数据,分析出每条资源所对应的实体,并将其对应到我们维基系统中的对应条目。比如说,你需要分析出一条 BT 资源是关于哪部作品的,然后将它跟我们维基系统中已有的作品条目进行关联。同时,你最好也要能够识别出系统中不存在的实体,并将其添加到新条目中去。所以,你最起码得熟练掌握正则表达式的运用。此外,由于文本情况复杂,比如一部作品可能拥有中、日、英译名以及额外的数个别名,因此如果你有文本处理、机器学习等相关经验,就最好不过了。



    现阶段基本就是这么多。如果你有兴趣、有疑问,或者想讨论需求细节,欢迎通过任何能找到我的方法与我联系,比如:
    推特及微博: @Ariagle
    邮箱: ariagle [at] moefou.org
    扣扣: 910437475


    顺便附一下萌否的各站点:
    萌否 http://moefou.org/ (主站,即将升级,上述2~4点将用于新版之中)
    萌否电台 http://moe.fm/
    MoeApps http://app.moefou.org/
    萌否开放平台 http://open.moefou.org/
    (上述第1点将启用新的域名)
    24 条回复    1970-01-01 08:00:00 +08:00
    ipconfiger
        1
    ipconfiger  
       2013-03-11 20:39:21 +08:00
    https://github.com/ipconfiger/pyImageServer 关于第一个需求我这里有一个项目貌似合拍,如果贵站愿意使用将不胜荣幸
    Ariagle
        2
    Ariagle  
    OP
       2013-03-11 20:48:27 +08:00
    @ipconfiger 感谢~如果使用这个的话,可能需要你再帮忙定制一些功能。不知该项目当前有无使用到某一具体的应用中去?
    chengyuhui
        3
    chengyuhui  
       2013-03-11 21:13:21 +08:00
    咱似乎可以承担定向爬虫喵~
    ipconfiger
        4
    ipconfiger  
       2013-03-11 21:45:16 +08:00
    @Ariagle 定制啥?能具体说说么?这个项目是从咕咚网的图片服务剥离出来的,当然代码肯定是重头写过了的。
    Ariagle
        5
    Ariagle  
    OP
       2013-03-11 21:50:46 +08:00
    @chengyuhui 如何联系你呢?


    @ipconfiger 比如,直接根据 URL 来获取网络上的图片并处理。具体可以私下谈~
    ipconfiger
        6
    ipconfiger  
       2013-03-11 22:03:55 +08:00
    @Ariagle easy,基本上就两个部分,获取图片,根据参数处理。可以弄成可扩展的系统,从url获取图片对Python来说就一句话的事情。github上有我联系方式
    chengyuhui
        7
    chengyuhui  
       2013-03-11 22:11:07 +08:00
    @Ariagle [email protected] (E-mail/Google Talk)
    Ariagle
        8
    Ariagle  
    OP
       2013-03-11 22:21:57 +08:00   ❤️ 1
    @ipconfiger
    @chengyuhui
    已通过邮件联系两位。
    Tianpu
        9
    Tianpu  
       2013-03-12 00:23:57 +08:00
    纯技术讨论 图片的话 可以用nginx的image_filter 后端是gd 只要不是超大图 gd还是比imagik有优势的
    Ariagle
        10
    Ariagle  
    OP
       2013-03-12 00:59:37 +08:00 via iPhone
    @Tianpu 主要是会涉及到不少逻辑处理,开发层面还是用团队更熟悉的语言为好
    rorvn
        11
    rorvn  
       2013-03-12 03:53:34 +08:00
    我或许可以试一试第一个。我虽然写过nodejs,但不是很熟练。
    Ariagle
        12
    Ariagle  
    OP
       2013-03-12 09:36:25 +08:00
    @rorvn 那你更熟悉哪种语言呢?也许也可以试试,如何联系你?
    CoderGeek
        13
    CoderGeek  
       2013-03-12 16:21:23 +08:00
    我只能支持你们了 不是nodejs的 我是一枚java coder 加油
    rorvn
        14
    rorvn  
       2013-03-12 16:53:08 +08:00
    rorvn
        15
    rorvn  
       2013-03-12 16:58:34 +08:00
    @Ariagle 用来写后端的语言我只会nodejs(除非算进C)…… 而且我还不是很熟练……
    mercurylanded
        16
    mercurylanded  
       2013-03-12 17:24:01 +08:00
    3,4感觉很难的样子
    akinoniku
        17
    akinoniku  
       2013-03-12 18:02:56 +08:00
    最近在重写星祈娘,虽然是先做星祈娘再做萌否的,不过如果萌否可以集成星祈娘的功能就好了。
    Ariagle
        18
    Ariagle  
    OP
       2013-03-12 18:11:24 +08:00
    @rorvn 提交后白屏了……有什么通信方式可以私下聊聊么?


    @mercurylanded 点头。3、4我目前还没有特别好的解决方案,1和2属于我没时间做。


    @akinoniku 对于集成你有什么点子吗?
    rorvn
        19
    rorvn  
       2013-03-12 18:41:21 +08:00
    @Ariagle 你没把框填满吧…… 因为是demo,错误处理基本就没管。

    联系方式:gmail/gtalk: [email protected]
    ncwhale
        20
    ncwhale  
       2013-03-13 10:50:41 +08:00
    @akinoniku 星祈娘——这和咱之前在自己的nfs上写的cron+mldonkey自动下片功能非常相像啊喵~233~获取RSS推送后正则一下⑨能给mldonkey推送种子了喵~233~
    akinoniku
        21
    akinoniku  
       2013-03-13 13:56:25 +08:00
    @Ariagle 等我再思考一下,毕竟在我看来萌否是靠人工维护feed的,星祈娘是一套自动分析工具。所以你也知道要解决容错问题。。等我下个版本写好看一下有什么能直接用的就好。。

    @ncwhale 谢谢,其实我也是做了类似的东西才有这样的IDEA的,不过现在整个项目正在重写。。现有的网站就先丢一边了,等我做好新的再通知ncwhale看一下有什么能改进的地方。(还打算加个添加迅雷离线的功能)
    Ariagle
        22
    Ariagle  
    OP
       2013-03-13 15:56:46 +08:00
    @akinoniku 嗯,我对自动分析很感兴趣,若是能在BT资源这块解决跟新番作品的对应问题,就帮大忙了。
    jiangplus
        23
    jiangplus  
       2013-04-18 19:08:40 +08:00
    想问问项目现在怎样了
    Ariagle
        24
    Ariagle  
    OP
       2013-04-19 00:22:16 +08:00 via iPhone
    @jiangplus 有序进行中,不过比较缓慢就是了,大家都是业余在做
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4123 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 05:31 · PVG 13:31 · LAX 21:31 · JFK 00:31
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.