V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
MarsOnly
V2EX  ›  职场话题

怎么面试高级 Python 爬虫工程师

  •  
  •   MarsOnly · 22 天前 · 1961 次点击
    我是做 java 的,好多年前用 java 做过爬虫。最近朋友让帮忙面试几个高级 Python 爬虫工程师,主要是从 0 搭建数据采集系统,主要是抓取一些新闻时事、自媒体网站的数据。

    关于 Python ,我的水平仅限于能写一些简单的脚本和 flask 服务。了解了下现在 Python 爬虫这块儿主要是 scrapy ,打算趁着周末写几个小 demo 熟悉一下。

    针对面试点,我自己结合自己的经验,打算围绕分布式爬虫系统的搭建、核心模块、反爬机制的策略、监控和预警这些。Python 这块儿朋友这边负责面试。

    请教一下大家,除了我准备的这些点,还有哪些地方需要问一下的。或者说我准备的内容有不合适的地方也请大家指正一下。
    11 条回复    2024-08-27 18:58:30 +08:00
    vitovan
        1
    vitovan  
       22 天前
    给他出个题,让他先爬个知乎看看。

    /t/1067570
    Cooky
        2
    Cooky  
       22 天前
    爬虫就是个糟心的活,专门干这个职位不划算
    lucasj
        3
    lucasj  
       22 天前
    问计算机基础、编程修养、软件开发流程之类的就可以。你 java 问什么 python 啊,现学现用,怕不是给人看笑话。
    lasuar
        4
    lasuar  
       22 天前
    你一个 python 初级+爬虫初级,你说怎么面 python 高级爬虫?高级爬虫爬的也是 app 了,这些你也不懂,没法面。。
    naythefirst01
        5
    naythefirst01  
       22 天前
    现在爬虫重点先是反爬吧 然后是分布式这些正向开发能力,基本上都是先问有没有 XX 厂的商业产品逆向分析经验,如果不是大厂的话可以直接问他们的业务方向,有电商、社交平台、金融、AI ,“投其所好”就差不多了
    yoyo12
        6
    yoyo12  
       22 天前
    爬了哪些网站,用了什么技术,能不能自动化。
    chi1st
        7
    chi1st  
       21 天前
    主要看岗位是主工程能力还是主逆向能力,工程能力就正常后端那些东西,逆向的话估计你也不太懂。。。
    ik
        8
    ik  
       21 天前 via iPhone
    没进去过的都不行,让对方在简历中附上改造经历🐶
    zcybupt2016
        9
    zcybupt2016  
       21 天前
    爬虫主要问逆向吧,都高级了其它基础内容随便问问就好
    brianinzz
        10
    brianinzz  
       21 天前
    说实话有点难而且你如果不懂很容易忽悠你
    核心需要问的就是逆向能力 基本包括 加密算法逆向+过验证码
    根据目标网站不同 加密算法也都不一样 验证码主流的也很多 顶象 极验 阿里 每个都有自己的特点
    你没有上手做过你很难知道他是真的做过还是看一些文章忽悠你。
    我觉得如果没有利益相关还是不要“帮”朋友做 找专业的人来吧
    或者 业务很确定的情况下 你自己取爬一下这几个目标网站 看看有什么问题 跟面试问题结合结合
    aisk
        11
    aisk  
       20 天前
    问问有什么对抗反爬虫的经验
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1001 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 18:59 · PVG 02:59 · LAX 11:59 · JFK 14:59
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.