V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
liangmishi
V2EX  ›  Python

喜欢写爬虫,感觉好难找工作

  •  
  •   liangmishi · 2016-07-06 21:07:44 +08:00 · 20906 次点击
    这是一个创建于 3053 天前的主题,其中的信息可能已经有所发展或是发生改变。
    学了很长一段时间 web ,自己用 tornado 做过博客,但是更喜欢爬虫

    可是工作感觉很难找,纠结要不要重新拿起 web
    75 条回复    2016-12-15 00:26:29 +08:00
    chimingphang
        1
    chimingphang  
       2016-07-06 21:15:22 +08:00
    大数据?
    Soar360
        2
    Soar360  
       2016-07-06 21:19:25 +08:00
    Web 是条不归路。
    practicer
        3
    practicer  
       2016-07-06 21:22:30 +08:00
    我写爬虫多一点,打算用它来找工作,但不是因为兴趣,只因用它作为转行的切入点。相比 web ,爬虫有这么几个优点:技能要求稍微低一点、竞争低( PHP,JAVA...)、和我现岗位属于一个行业(数据分析)。楼主既然因为兴趣做爬虫,应该比我用心多了,共勉吧。加微信交流 nickysher
    katyang
        4
    katyang  
       2016-07-06 21:32:23 +08:00
    搭车问, web 好找工作吗?
    verydxz
        5
    verydxz  
       2016-07-06 21:33:07 +08:00
    如果能深入,肯定比 web 好。问题就是会写一般地爬虫的到处都是,看 LZ 多厉害了。
    dexterzzz
        6
    dexterzzz  
       2016-07-06 21:34:10 +08:00
    把 excel , sql , pandas 学好。
    用爬虫爬数据存数据库,做数据分析,挖掘。
    Xrong
        7
    Xrong  
       2016-07-06 21:34:52 +08:00   ❤️ 1
    是喜欢拿到数据的快感吧
    dexterzzz
        8
    dexterzzz  
       2016-07-06 21:35:00 +08:00   ❤️ 1
    liangmishi
        9
    liangmishi  
    OP
       2016-07-06 22:06:54 +08:00
    @Soar360 不归还那么多人走

    @chimingphang 有打算
    liangmishi
        10
    liangmishi  
    OP
       2016-07-06 22:10:50 +08:00
    @katyang 相比写爬虫会来得好找

    @verydxz 是的,一般的爬虫很多人都会写,还是要看技能点了(还在加深难度)

    @Xrong 确实有点喜欢
    justou
        11
    justou  
       2016-07-06 22:12:55 +08:00
    @dexterzzz
    有了 python 跟一系列 py 的工具还有必要学 excel 么
    曾经打算学好 office 套, 后来用了 python 跟 latex 后就没管过了...
    liangmishi
        12
    liangmishi  
    OP
       2016-07-06 22:14:55 +08:00
    @dexterzzz thanks ,明白了,抓数据和分析数据都是绑一起的
    exoticknight
        13
    exoticknight  
       2016-07-06 22:15:39 +08:00   ❤️ 1
    顺便搞搞数据分析,大把世界
    rogwan
        14
    rogwan  
       2016-07-06 22:28:37 +08:00
    Web 涉及的技术环境更多、更复杂,没有做爬虫来的单纯些。
    katyang
        15
    katyang  
       2016-07-06 22:30:26 +08:00
    @exoticknight 做爬虫并搞数据分析,这有可能单干吗?就是不去公司,自己远程工作之类
    pc10201
        16
    pc10201  
       2016-07-06 22:34:35 +08:00
    个人觉得做 web 比做爬虫轻松一些~
    binux
        17
    binux  
       2016-07-06 22:55:00 +08:00   ❤️ 1
    并不难找啊,有需求的公司那么多,从创业公司到百度都可以啊。
    dtfm
        18
    dtfm  
       2016-07-06 23:04:36 +08:00   ❤️ 1
    我也是喜欢搞爬虫,没事爬爬微博、搞搞知乎之类,与反爬虫做斗争其乐无穷。
    但光凭这个,好像不太是公司的需求,需要 python 数据挖掘的公司很多,但爬虫只是其中的一个很小的模块,更重要的数据分析,要通过这个找工作的话,感觉技能点点歪了。
    notgod
        19
    notgod  
       2016-07-06 23:13:08 +08:00 via iPhone
    会爬数据 自己做站 一个月几万很容易赚到的好吧
    一天 2 小时就够了 .....
    MyFaith
        20
    MyFaith  
       2016-07-06 23:15:47 +08:00
    不是有个职业叫 数据挖掘师 吗?
    suber
        21
    suber  
       2016-07-06 23:21:52 +08:00 via iPhone   ❤️ 1
    同想做爬虫,正打算找这方面的工作。现在是做 Java 开发,不知道换方向就业情况什么样。楼主找了很长时间吗
    anexplore
        22
    anexplore  
       2016-07-06 23:25:19 +08:00 via iPhone
    爬虫没那么容易搞吧
    2642375043
        23
    2642375043  
       2016-07-06 23:38:35 +08:00
    @notgod 怎么赚
    tscat
        24
    tscat  
       2016-07-07 00:02:05 +08:00 via iPhone
    @notgod 有没有做成的网站给个参考。。做过几个站,一直没入门的感觉。
    yehon
        25
    yehon  
       2016-07-07 00:30:10 +08:00 via iPhone   ❤️ 1
    请联系我 zhangyafeng # meizu.com
    dtfm
        26
    dtfm  
       2016-07-07 00:41:47 +08:00
    @notgod 有这样搞的案例么,我想学习一下模式?独立网站现在能一个月挣几万,靠爬数据恐怕有点难吧。
    redhatping
        27
    redhatping  
       2016-07-07 00:45:59 +08:00 via iPhone   ❤️ 1
    跟我联系 可以 soho 上班 18001@go-enter.cn
    notgod
        28
    notgod  
       2016-07-07 07:00:01 +08:00   ❤️ 4
    @dtfm
    @tscat
    @2642375043

    对于你们这么问的方式 我确实无法回答
    路是自己走的 并且只能找到适合自己的路
    唯一的前提是你具备赚多少钱的能力, 如果你没那个底子和学习能力
    把百度给你 3 天也能玩到倒闭

    这种所谓的参考 是不具备意义的 给你一个站 你只会去模仿
    没创新 靠数据堆砌 毫无意义

    这里说的是谷歌 非百度
    如果你打算做 建议你学习基础的搜索引擎优化 和基础的自然语言处理
    然后哪怕使用 wordpress 去采集数据 处理数据 入库
    1 个月
    10 个站 = 1 万 IP
    100 个站 = 10 万 IP
    10 万 IP 差不多一个月收入在$2k 左右了
    平均一个网站 1000 个 IP 一天不难吧?

    才开始肯定会浪费些时间 走些弯路 交些学费 为错误买单
    这些都是以后的宝贵经验

    不要指望别人从头到尾的告诉你怎么做 真的没什么用的
    也不要看到别人月收入多少多少$ 其实别人才开始的努力 通宵通宵的学习时间 你们看不到
    什么都有代价的
    tscat
        29
    tscat  
       2016-07-07 07:25:37 +08:00 via iPhone
    @notgod 感谢指点。懂了
    clearbug
        30
    clearbug  
       2016-07-07 08:30:25 +08:00 via Android
    @notgod 不会发生侵权么?
    murmur
        31
    murmur  
       2016-07-07 08:58:00 +08:00
    爬虫现在我感觉已经做到瓶颈了 首先这么多的数据拿来干嘛没有明确目的 二是越来越多的网站要求注册甚至付费
    爬数据的门槛越来越高了 未来应该是那些网站自己卖自己的数据。。
    XianZaiZhuCe
        32
    XianZaiZhuCe  
       2016-07-07 08:59:17 +08:00 via iPhone
    又他妈在跳大神 真烦这种人
    redhatping
        33
    redhatping  
       2016-07-07 09:06:38 +08:00
    @murmur 注册.... 难道我们的技术不要继续上升一步
    ikaros
        34
    ikaros  
       2016-07-07 09:14:05 +08:00
    你可以 @gouwudan/g 他们(还有几个类似张大妈,买个便宜货)在招这方面的好像 - - 去掉斜杠
    2642375043
        35
    2642375043  
       2016-07-07 09:29:17 +08:00
    @notgod 了解了
    zmrenwu
        36
    zmrenwu  
       2016-07-07 09:46:59 +08:00   ❤️ 1
    用个框架爬点数据的人太多了,想找好工作需要深入理解 js 和浏览器运行原理。
    duhui
        37
    duhui  
       2016-07-07 09:53:39 +08:00
    请问下, 你们说的爬虫是说的针对某个网站的爬,还是通用爬虫,根据关键字来爬呢
    pyengwoei
        38
    pyengwoei  
       2016-07-07 10:04:05 +08:00
    @notgod 能分享下吗,我这就是有很多爬来的东西 还不知道怎么切入
    learnshare
        39
    learnshare  
       2016-07-07 10:25:18 +08:00   ❤️ 1
    爬数据不是个正经工作,数据分析才算吧
    Verydiao
        40
    Verydiao  
       2016-07-07 10:50:21 +08:00   ❤️ 1
    说起爬虫...我竟然买了火车头.......但是数据分析的话,还是得靠自由度更高的程序来实现,需要 python 自己编写。
    jasonlz
        41
    jasonlz  
       2016-07-07 11:00:15 +08:00   ❤️ 1
    爬虫只是手段,爬了之后做的事情才是关键,没有爬虫工程师,只有数据工程师。
    zhengkai
        42
    zhengkai  
       2016-07-07 11:19:06 +08:00   ❤️ 1
    只喜欢踢点球,哪个球队都不收我
    gouwudang
        43
    gouwudang  
       2016-07-07 11:39:37 +08:00   ❤️ 1
    楼主考虑南京么?我们有爬虫和日志分析岗位的需求,欢迎勾搭: [email protected]
    chesterwang
        44
    chesterwang  
       2016-07-07 11:40:17 +08:00
    @jasonlz
    sweb
        45
    sweb  
       2016-07-07 11:46:37 +08:00
    @notgod Google 一个站 1Kip/天还真不太好搞, 10 个站 1Wip/天 更不好搞了。
    Reign
        46
    Reign  
       2016-07-07 12:01:10 +08:00 via Android
    如果你能把爬虫验证码写个算法破解了,找工作就简单了
    chenkun0128
        47
    chenkun0128  
       2016-07-07 12:49:35 +08:00   ❤️ 1
    最终还是要分析挖掘数据的价值,不然只是爬没有实质意义
    notgod
        48
    notgod  
       2016-07-07 12:54:17 +08:00 via iPhone   ❤️ 1
    @clearbug 侵权的问题很容易解决
    2 个方案
    1 直接使用俄罗斯 罗马尼亚服务器 没 dmca 问题
    2 内容放美国,
    真实内容放美国,
    俄罗斯 vps 安装一个 nginx 做反向代理美国内容

    为访问速度快,全部使用 cloudflare cdn 加速
    投诉都投诉到俄罗斯 罗马尼亚的 IP 。没 dmca

    这些都是我的积累。只是作为参考 让你少走弯路
    这样算不算解决了投诉问题? 为什么我这么聪明?而你还没想到?

    我又膨胀了 不说了 老板让搬砖去了 不然今天馒头都没了
    notgod
        49
    notgod  
       2016-07-07 12:57:11 +08:00 via iPhone   ❤️ 1
    @sweb 不难
    所以说你前期会先走些弯路 找到正确姿势 就不难了
    谷歌的 一般不太稳来源 流量一会高一会低
    我不会告诉你我每天谷歌来源多少流量的
    notgod
        50
    notgod  
       2016-07-07 13:06:20 +08:00 via iPhone
    好 我举个例子省的说我放卫星
    我以 jav 这个被越南人承包了谷歌排名前 n 页的例子来说

    卫道士免入

    搜索
    挂 ss 的 谷歌加 ncr 以后
    搜索 jav +图书馆 的英文

    得到一个网站
    数据来源 日本 dmm 。每天流量看 alexa

    其他的 搜索 jav
    排名前的 me 域名的 那些站 每个月收入不低于$5 万
    网站流量推测可以使用
    https://www.similarweb.com/
    这个工具计算网站真实流量相对精准
    注意 web 和 mobile 是分开的
    看看他们流量占比国家 根本和中国没什么事 全日本 美国 欧洲。这样的流量价格是中国的 3-5 倍


    这些站都不是我的 都越南团伙做的

    学无止境 抱着学习的态度 接受所有信息 提取对自己有用的
    保持学习的精神 善良些 友善些
    notgod
        51
    notgod  
       2016-07-07 13:07:58 +08:00 via iPhone
    @pyengwoei 见上贴
    其他不方便说太多 可以加我微信 私下交流
    见主页 博客 头像 扫码加我
    pypy
        52
    pypy  
       2016-07-07 13:09:15 +08:00   ❤️ 1
    @liangmishi 真想找这样的工作,请留下联系方式。立刻可以有面试机会。地点魔都。
    h4x3rotab
        53
    h4x3rotab  
       2016-07-07 13:22:32 +08:00 via iPhone
    国内为什么对爬虫需求这么大
    peter999
        54
    peter999  
       2016-07-07 13:23:33 +08:00   ❤️ 1
    去金融公司应聘,需要抓各种网站数据来增信,需求量很大
    liangmishi
        55
    liangmishi  
    OP
       2016-07-07 13:42:41 +08:00
    @pypy jtwmyddsgx 163.com
    liaa
        56
    liaa  
       2016-07-07 14:03:30 +08:00   ❤️ 1
    @liangmishi
    楼主我就帮你 @一下这个写爬虫的人: @binux ,他都在楼上回你贴了~居然不抱下大腿
    liangmishi
        57
    liangmishi  
    OP
       2016-07-07 14:37:56 +08:00
    @binux 蹲了很多天 v2 的招聘帖,基本上都是 web ,这才会纠结,大腿,让我抱抱你可好,不然总有孤身奋战的感觉
    liangmishi
        58
    liangmishi  
    OP
       2016-07-07 14:40:39 +08:00
    @suber 没找很长时间,长期潜水在 v2 上,感觉都是 web
    pypy
        59
    pypy  
       2016-07-07 14:45:29 +08:00   ❤️ 1
    @liangmishi 已经给您发了邮件,请查收。期待您的加入。
    pyengwoei
        60
    pyengwoei  
       2016-07-07 15:26:59 +08:00
    @notgod 帖子里面看到有你的联系方式
    nealv2ex
        61
    nealv2ex  
       2016-07-07 15:27:23 +08:00   ❤️ 1
    楼主是希望
    找一个工作学习怎么写爬虫,
    找一个工作是做爬虫相关事情的。
    这两种差别还挺大的。
    没有找到 lz 擅长爬虫的相关信息。
    practicer
        62
    practicer  
       2016-07-07 15:48:21 +08:00   ❤️ 1
    坐标广州,这边招爬虫的一是电商公司,二是外包做网站的公司,三是金融行业
    impig33
        63
    impig33  
       2016-07-07 16:09:06 +08:00
    @notgod 好点子
    liangmishi
        64
    liangmishi  
    OP
       2016-07-07 17:02:33 +08:00
    @nealv2ex 简单的说,更倾向于找一个爬虫团队,有人带着我干活
    CharlesL
        65
    CharlesL  
       2016-07-07 18:30:30 +08:00   ❤️ 1
    看一下百分点是否有招人,专业搞大数据的公司,好像有个爬虫团队。
    lanceyan
        66
    lanceyan  
       2016-07-07 18:52:59 +08:00   ❤️ 1
    成都有机会,公司专门做爬虫 ,有意向联系 [email protected]
    网址 http://hyfay.com
    TaMud
        67
    TaMud  
       2016-07-07 19:00:21 +08:00   ❤️ 1
    爬虫,又不是特别难的技术,有的公司叫个老员工,很快就能写出来了
    hunk
        68
    hunk  
       2016-07-07 20:00:23 +08:00   ❤️ 1
    感觉写爬虫是基础,做数据分析才是重头戏。两者兼顾才有市场。
    liangmishi
        69
    liangmishi  
    OP
       2016-07-07 20:57:50 +08:00
    @TaMud 是的,基本的爬虫只要几行代码。
    Matrixbirds
        70
    Matrixbirds  
       2016-07-07 21:12:09 +08:00   ❤️ 1
    你爬草榴啊做个毛站 自己赚钱做大老板
    suber
        71
    suber  
       2016-07-07 22:25:12 +08:00 via iPhone
    @liangmishi 的确大部分都是 web ,你是应届吗
    teikasen
        72
    teikasen  
       2016-07-07 22:28:57 +08:00
    @notgod 你好,想加微信进一步交流,谢谢
    nik
        73
    nik  
       2016-11-16 15:10:03 +08:00
    @liangmishi 找到爬虫工作了吗?我们公司现在需要爬虫工程师,不知你是否在北京?
    liangmishi
        74
    liangmishi  
    OP
       2016-11-16 19:37:44 +08:00 via Android
    @nik 找到了,不在北京,感谢^_^
    yongjiu236z
        75
    yongjiu236z  
       2016-12-15 00:26:29 +08:00
    有数据吗+Q2602560384
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1232 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 23:13 · PVG 07:13 · LAX 15:13 · JFK 18:13
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.