V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
luffy
V2EX  ›  DevOps

能否说说运维工作内容

  •  
  •   luffy · 2022-05-02 15:07:24 +08:00 · 9708 次点击
    这是一个创建于 697 天前的主题,其中的信息可能已经有所发展或是发生改变。

    不太了解这个行业。

    一般做运维的工作内容会有哪些?

    78 条回复    2023-07-13 17:45:38 +08:00
    whileFalse
        1
    whileFalse  
       2022-05-02 15:29:05 +08:00
    设置监控告警;
    OnCall ;
    优化基础架构;
    配合研发做一些他们没有权限做的事;
    有的公司还包含 DevOps 的工作
    whileFalse
        2
    whileFalse  
       2022-05-02 15:29:45 +08:00
    fix: 有的公司还包含 CICD 的工作
    Dart
        3
    Dart  
       2022-05-02 15:46:51 +08:00
    我的原则就是摸鱼
    whale
        4
    whale  
       2022-05-02 15:52:03 +08:00
    大致分三个方向:桌面运维、网络运维、系统运维,然后被统称修电脑的 😔
    psyer
        5
    psyer  
       2022-05-02 16:16:33 +08:00 via Android
    @whale 听这么一说,以后就不想找运维了😂 (在我的浅显理解中运维就是玩 Linux ,还加班那种,噗😂)
    psyer
        6
    psyer  
       2022-05-02 16:18:00 +08:00 via Android
    反正我找了很长一段时间工作,感觉运维要经常加班或者轮夜班的😂
    alsas
        7
    alsas  
       2022-05-02 16:44:28 +08:00
    最后一般都是转开发
    markgor
        8
    markgor  
       2022-05-02 18:05:30 +08:00
    背锅 & 甩锅...
    paopjian
        9
    paopjian  
       2022-05-02 18:14:18 +08:00
    不只是要加班,拉网线 扛服务器都是运维要干的
    gengchun
        10
    gengchun  
       2022-05-02 18:16:07 +08:00   ❤️ 1
    运维是个框。

    只要不是开发的工作,都算是运维。很多公司,连审计和等保都是运维组负责。

    说白了就是没预算,又需要一定专业知识的杂活。

    之所以最后都转开发也是这个道理。因为运维的多余的预算是没有的,省下的开发工时、CPU 内存肯定不会变成运维的奖金。最后,要多拿钱必然是在跳槽和转业务线中选一个。
    markgor
        11
    markgor  
       2022-05-02 18:18:10 +08:00   ❤️ 26
    一般都是这样:

    业务:啊啊啊啊啊啊这里出错不行;
    运维:有错误框吗?
    业务:有
    运维:开发问题,找开发。
    开发:测试环境没问题,看看是不是正式环境栏位有差异。
    运维:好的,那应该是网络问题。(迅速调整栏位)
    网络:WQNMLGB
    ......
    业务:上不了网
    运维:其他能上吗,能上就不是我们问题。
    业务:内网不能上
    运维:网络问题(偷偷摸摸去看看 iptable 并修复)
    网络:WQNMLGB
    ......
    业务:在家连不回公司...
    运维:你家网络问题。
    一群业务:我们都不行。
    运维:机房运营商问题已报障(偷偷摸摸去看看 iptable 并修复)
    ......
    业务:文件丢失了
    运维:是不是网络异常
    业务:网络正常就一个文件不见了
    网络:......
    运维:要不问问开发?
    开发:samba 共享与我无关。
    运维:硬盘坏了,等我去换下硬盘。
    -拔错盘重置错 raid:备份盘都有问题,数据离线恢复,预估要几天。(半背锅)
    -替换异常硬盘并同步成功:基于我们早期长远的部署,已经修复好坏盘的问题,并对业务 0 影响。(因锅得福)

    所以做运维,最重要的是保持 24 小时的头脑清晰,甩锅要准,接锅要狠。
    如果你们家运维要负责网络岗,那就把甩给网络的锅甩给运营商,运营商是运维最后的坚强....
    NoirStrike
        12
    NoirStrike  
       2022-05-02 20:12:40 +08:00
    楼上把我吓到了,
    本背锅侠进机房次数不超过 10 次
    加班的话还行, 线上出事肯定会拉上开发垫背的
    aptupdate
        13
    aptupdate  
       2022-05-02 20:15:04 +08:00
    我接触到的运维给我的印象就是轮班、杂活、摸鱼。
    adoal
        14
    adoal  
       2022-05-02 20:15:52 +08:00 via iPhone
    运维是一个需要好几个领域的技术积累但又通常被开发岗位视为没有技术含量的岗位…哪怕开发岗位只是按主程搭好的脚手架填空写 CRUD 而不是写算法。
    samuelcai
        15
    samuelcai  
       2022-05-02 20:24:19 +08:00
    项目立项 ---> 项目上线:这是开发关注的阶段
    项目上线 ---> 项目下线:这是运维关注的阶段

    运维主要是关注项目运行的稳定性,高效性,安全性,所有工作都是围绕着怎么提高稳定性,高效性,安全性去展开
    nkidgm
        16
    nkidgm  
       2022-05-02 20:27:13 +08:00   ❤️ 3
    运维比较难衡量绩效的,在常人眼中的“无问题”,运维要在背后要做很多事情的,这些在领导眼中又难以有亮眼 and 突出的表现。

    开发就不同:

    加班->出活->销售->运营->下一波迭代

    看得见摸得着。
    WGNNN
        17
    WGNNN  
       2022-05-02 20:28:07 +08:00
    公司修电脑的
    levelworm
        18
    levelworm  
       2022-05-02 20:29:09 +08:00 via Android
    你别说,做了几天 DE 我还真想去做 DevOps.
    zhaoyeye
        19
    zhaoyeye  
       2022-05-02 20:49:01 +08:00   ❤️ 2
    运维啊,很简单了啦,只要没人找你就自己玩自己的,甚至可以一直摸鱼。
    dorothyREN
        20
    dorothyREN  
       2022-05-02 20:55:04 +08:00
    @whale #4 还有抗服务器的
    keeguai
        21
    keeguai  
       2022-05-02 21:00:47 +08:00
    ITSM 规范自己学吧
    singerll
        22
    singerll  
       2022-05-02 21:32:22 +08:00 via Android
    从 Linux 内核到打印机维修
    m0re
        23
    m0re  
       2022-05-02 22:23:34 +08:00
    背锅
    当然老油条也会甩锅哈哈哈
    大学期间接触了一些简单的运维,正经的业务有:
    Linux 系统维护,网络维护,k8s 集群的维护、站群网站的建设 other
    不正经的业务有:
    修凳子,修椅子,强电工程,空调维护,陪后端抽烟陪运营喝酒陪前端熬夜和产品抢活(抢不了我是 lj )
    打印机从全新到报废,用黑苹果修视觉土豪的 macbook pro ,用 p 站测试砖线 iplc 稳定性
    我大学都 tm 干了些什么。。。。。。
    codefever
        24
    codefever  
       2022-05-02 22:47:45 +08:00
    摸鱼、背锅
    jousca
        25
    jousca  
       2022-05-02 22:58:24 +08:00
    @markgor 你这是说的我么?
    Cheons
        26
    Cheons  
       2022-05-02 23:34:41 +08:00 via Android
    @markgor
    总结
    除非网线没插,网络出问题甩锅运营商
    运行问题拉上开发
    proxychains
        27
    proxychains  
       2022-05-03 00:59:29 +08:00
    救火,背锅
    AntonChen
        28
    AntonChen  
       2022-05-03 01:08:18 +08:00 via Android
    给研发擦屁股,给 QA 擦屁股,给领导擦屁股,给客户擦屁股
    nijux
        29
    nijux  
       2022-05-03 06:31:29 +08:00
    Eytoyes
        30
    Eytoyes  
       2022-05-03 09:03:13 +08:00
    说个朋友特别 2b 的故事,有个产品上线发现只有内网可以访问,外网用户访问不进来,然后怒艹网络部没有配置好,网络部检查之后又怒艹运营商说端口为什么给屏蔽了,运营商回复检查端口没有屏蔽,让网络部自查,后来拉来开发检查配置,也没发现问题,重新部署测试环境一切正常,心头一惊,默默打开 eth0-cfg ,发现 mask 谁他妈给打错成 msak ,偷偷改好 restart ,众人惊呼“服务正常访问了!”。然后那个朋友装作什么没有发生的样子准时下班了。。。
    jinliming2
        31
    jinliming2  
       2022-05-03 10:03:25 +08:00   ❤️ 1
    运维好像就是搬运自行车的吧?至少美团的运维就是搬自行车的 [doge]
    idblife
        32
    idblife  
       2022-05-03 10:36:15 +08:00
    @Eytoyes
    我有一个朋友。。。
    markgor
        33
    markgor  
       2022-05-03 10:57:29 +08:00   ❤️ 2
    OP 想了解正儿八经的 DevOps 工作,
    我们却在唠运维的日常....

    其实面试造核弹,工作拧螺丝不是开发的专利......
    运维在中小公司基本是打下手般存在...
    你看就连谷歌现在正儿八经的运维都改名 SRE 了,
    但是一般运维想卡你项目很简单,而且作为公司直击最“底层”的人员,故障原因还不是自己说了算?
    什么?你说堡垒机?我直接跑机房 kvm 切换下就直接操作了,然后把 history 删了你还说什么?
    什么?你说网络异常?背后还有老鼠和运营商替我背锅呢.....
    什么?你说 update 错数据库了?不是硬盘坏了吗?
    什么?运行不稳定?我每次上厕所经过机房都没有快速插拔网线啊。
    所以一个作为老油条的运维,在公司基本是扫地憎的存在,看似人人都能找他做事,实则人人都怕得罪他.....
    Eytoyes
        34
    Eytoyes  
       2022-05-03 11:03:16 +08:00
    @idblife #32 哈哈,锅必须有人背,但肯定不是我朋友
    echo1937
        35
    echo1937  
       2022-05-03 11:04:15 +08:00 via iPhone
    @markgor 这管理有点混乱了啊,如果可以做那么多事情不被人 /系统发现,那盗窃资产、私下挖矿、删库跑路都是必然的事情。
    Ephzent
        36
    Ephzent  
       2022-05-03 11:05:51 +08:00
    没事摸鱼,有事背锅
    dyrex
        37
    dyrex  
       2022-05-03 11:11:40 +08:00 via Android   ❤️ 1
    linux 系统管理,k8s 集群维护,CICD 流水线,基础设施监控,业务监控,链路监控
    markgor
        38
    markgor  
       2022-05-03 11:17:47 +08:00   ❤️ 1
    @echo1937 #35 中小公司一般只有运维能接触最底层,能做的事多得去了....
    除非运维分两部门各自牵制,否则一般都这样,另外更主要其实是看自己部门主管。
    其实现在大多数运维都只有 1~2 人 /场地。
    管理制度很多名存实亡。
    包括但不限于堡垒机 /分权限 /机房监控 /本地登录告警 等等等的,其实都是防君子而已...
    就拿 mysql 来说,很多都有指引运维有运维单独账号,开发有开发单独账号...实则运维进机房把数据拷出来开个免权鉴登录就能进入查看数据了。
    私下挖矿可以参考网吧的网管,也不是没有。
    删库跑路--这个太明显就不行了..除非做到硬盘损坏和备份盘都损坏,另外数据库我们当时小公司也不是就单一机房备份,还有异地机房备份的.....
    这些更多看个人责任吧...
    Nich0la5
        39
    Nich0la5  
       2022-05-03 11:19:04 +08:00
    我有个朋友是物理运维,就天天搬硬盘搬机箱,还顺便负责设备保管取用记录啥的
    Songxwn
        40
    Songxwn  
       2022-05-03 11:36:59 +08:00
    花式摸鱼
    tsfq007
        41
    tsfq007  
       2022-05-03 12:59:05 +08:00
    运维看归属哪一块的运维,以及公司规模和对运维的定义
    jousca
        42
    jousca  
       2022-05-03 13:12:43 +08:00   ❤️ 2
    出事情,觉得运维没用。 没出事情,也觉得运维没用。
    feather12315
        43
    feather12315  
       2022-05-03 13:15:58 +08:00 via Android
    @markgor #38 我一个开发都觉得公司那套监控系统都防傻子、君子的,想通过网络泄露点东西有 N 种办法
    ReznovG
        44
    ReznovG  
       2022-05-03 13:56:19 +08:00
    @feather12315 有没有想过,绕过那些系统的法子全是得进监狱的?
    feather12315
        45
    feather12315  
       2022-05-03 14:28:07 +08:00 via Android
    @ReznovG #44 没有。
    一类是单纯地阻断中间人攻击罢了:公司所有的外网流量走代理,证书是自签名的,只要保证不被中间人攻击就行了。
    另一类是加密、混淆、分割文件,将大文件传输化整为零,比如将小文件附在 jpg 图片后面,base64 编码后以文本方式 post 出去。

    即使有截屏,能不能被审计到也是概率问题:员工人数太多,将伪装后的正常行为隐藏在海量的数据下,很难被审计得到。
    feather12315
        46
    feather12315  
       2022-05-03 14:29:31 +08:00 via Android
    @ReznovG #44 至于虚拟机( wsl2 就行了)内操作、虚拟机内用 VPN 穿透,更是没法防住了。
    cjpjxjx
        47
    cjpjxjx  
       2022-05-03 15:00:21 +08:00
    @whale
    桌面运维:修电脑的
    网络运维:修网络的
    系统运维:修服务器的
    DOLLOR
        48
    DOLLOR  
       2022-05-03 15:36:22 +08:00   ❤️ 1
    比如经常看到某某网站崩了,在外行人眼里是程序员在救场,实际上是运维在救场。
    mmdsun
        49
    mmdsun  
       2022-05-03 15:51:31 +08:00
    楼上补充差不多了。和开发相比,如果生产环境没出事情,工作相对轻松各种摸鱼,尤其是现在各种 CI 、自动化部署的时代。也没有开发那么内卷。
    shequ2046
        50
    shequ2046  
       2022-05-03 17:38:06 +08:00
    运维是上限和下限都很高的岗位,一般来说正经的运维的抬头都是分析师,只能去欧美五百强中的 IT 企业工作,所以圈子其实很小。
    shequ2046
        51
    shequ2046  
       2022-05-03 17:39:18 +08:00
    @feather12315 这世界上有种设备叫做 IDS ,有种职业叫做 InfoSec 工程师。
    shequ2046
        52
    shequ2046  
       2022-05-03 17:40:18 +08:00
    @feather12315 有种技术叫做 DPI 。
    shequ2046
        53
    shequ2046  
       2022-05-03 17:43:02 +08:00
    @feather12315 有种学科叫做 Digital forensics 。
    levelworm
        54
    levelworm  
       2022-05-03 18:55:24 +08:00 via Android
    @shequ2046 这是高大上,但是和 devops 没啥关系了吧
    lllllIIIlll
        55
    lllllIIIlll  
       2022-05-03 22:24:36 +08:00
    看大家描述,感觉平时工作内容属于开发兼职运维了
    salmon5
        56
    salmon5  
       2022-05-03 23:42:32 +08:00
    运维技能上的要求:上限和下限都很高,但是体现的价值很一般;开发上限和下限一般,但是体现的价值较高;
    所以对于新人,除非万不得已,千万别做运维这个工种;现在但凡有点出路的,都不会选择运维这个工种。
    做开发相对更好。
    salmon5
        57
    salmon5  
       2022-05-03 23:44:39 +08:00
    什么 devops/sre ,什么的都别搞;做开发(各种业务导向或技术导向的公司的开发都行)才是王道
    salmon5
        58
    salmon5  
       2022-05-03 23:47:04 +08:00
    同一个公司,运维要做好,要求相当高的技能栈和敬业精神(你懂的),但是开发松松垮垮就能达到你的同等性价比
    salmon5
        59
    salmon5  
       2022-05-03 23:55:19 +08:00
    而且现在各种外行张三李四,都在唱衰运维,动辄拿一些国外的例子,其实国外不是没有运维了,而是角色变成了 devops ,公司总人数还是不变。总的来说,言论对运维也不友好。
    erhandsome
        60
    erhandsome  
       2022-05-04 00:02:05 +08:00
    proxychains
        61
    proxychains  
       2022-05-04 01:42:01 +08:00
    救场 ❌
    救火 √
    上个月交换机挂了 9 点多我跑去机房拔电...
    Alliot
        62
    Alliot  
       2022-05-04 08:23:24 +08:00 via Android   ❤️ 1
    搞运维的这个说法太广了,就跟对别人说搞 it 的一样。
    运维粗略的就至少有:
    办公环境桌面运维
    IDC 机房运维(可以分为平台运维,机房环境运维,甚至 UPS 运维。。。)
    网络运维
    系统运维
    监控运维等等一堆

    然后往上走还有:
    DevOps
    SRE 等, 他们很多时候都称自己是运维。

    工作内容、技术栈当然也是大不相同。
    EzBlue
        63
    EzBlue  
       2022-05-04 08:36:59 +08:00
    小公司运维:全都要会
    大公司运维:只能会一样

    看你在什么平台 什么公司 什么管理体系
    feather12315
        64
    feather12315  
       2022-05-04 11:09:52 +08:00 via Android
    @shequ2046 #53 但是数万员工的公司,没资源刻意监控每个人的行为。在留下痕迹前已经刻意将异常行为混淆成正常行为了。
    这是个概率问题,明显的信息违规都那么多,也没可以封杀,何况精心伪装的异常行为。
    shequ2046
        65
    shequ2046  
       2022-05-04 14:34:53 +08:00
    @feather12315 在你这辈子能接触到的公司里也许真的是这样,但是在 faang 为例的另外一个世界里却并非如此,这就是所谓的夏虫不可语冰。
    luffy
        66
    luffy  
    OP
       2022-05-04 16:39:33 +08:00
    请教个问题:

    如果不懂得如何制作 linux. 发行版,有资格算得上是个好运维嘛?
    023Timber
        67
    023Timber  
       2022-05-04 23:45:08 +08:00 via iPad
    老板认为是个人就可以做运维,实际是一般人是做不好运维的!运维始终是成本部门,不好体现工作业绩。总之,比较悲催!
    shervy
        68
    shervy  
       2022-05-05 11:14:06 +08:00
    建议转开发,我一般看到这种话题,直接都是避开的,因为当你把一门新兴技术学到 50%的时候,你发现新的技术又变热门了,你之前学的不能说没用,但已经不算热门了。 如果你脑子发达,一门技术几个月就能搞定,当我没说,反正我是不行。
    YSMAN
        69
    YSMAN  
       2022-05-05 11:29:00 +08:00
    我是做运维的,换硬盘, 协调网络,云平台开发维护
    YSMAN
        70
    YSMAN  
       2022-05-05 11:30:38 +08:00
    @YSMAN 有 low 一点的活, 也有技术活儿
    最后分享下我开发的私有运平台 https://github.com/niklaus-code/nicloud
    unco020511
        71
    unco020511  
       2022-05-05 16:18:46 +08:00
    运维:重启服务器的
    dreamusername
        72
    dreamusername  
       2022-05-05 16:25:10 +08:00   ❤️ 1
    上面大家说了很多的运维,一般跟业务开发比较紧密的是三种类型的运维:
    一是业务运维,俗称 SRE ,在服务开发完毕提测后,或者是提测结束后,业务运维就开始介入,后续服务的业务问题基本是他们负责,当然在标准的流程里业务流程介入更早,项目需求评审的时候就参与了。
    第二种与第三种都是运维开发,但是面对不同的场景,第二种俗称 DevOps ,做流水线开发的,还有叫 CICD
    第三种就是运维开发,做监控系统,一般搞的监控面板与告警。

    他们各自的技术栈是这么划分的,首先是业务运维,业务运维一般会 Shell 就足够了,不强求其他高级语言能力,业务运维是一个可以划水但需要一直 oncall 的岗位,虽然他们叫 SRE ,在谷歌的最佳实践里,SRE 有很高的定位,比如 SRE 首先是一个标准的业务开发,显然在国内的情况,此 SRE 非彼 SRE ,就像下面说的 DevOps 一样,本来只是一个最佳实践,在国内却是一类岗位。
    运维开发,简单来说是开发系统给业务运维使用提升效率的,一般业务运维的上升通道都是往这两个方向走,没有孰优孰劣,但是要说在运维层面来说,流水线是需要根据基础架构定制的,而监控系统一般是适用基础架构,所以现在运维基本都卷在 DevOps 这块,有更高的自由度,最主要的可以制定规则,terraform 、tekton 、argocd 、kubernetes 这些工具与系统,gitlab flow 、gitops 、aiops 这些耳熟能详的最佳实践,都是在 DevOps 这块,目前 DevOps 的技术栈,基本都在 golang 这块。
    监控告警运维开发,打交道的就是常见的工具或系统了,prometheus 、loki 、grafana 、elk ,对接开发各种告警平台,收集与告警的一般可以粗略分为业务服务基础状态、metrics 、logs 、apm 等等,针对指标、阈值做被动的告警,还有主动监控类。高级语言能力一般 python 比较多。
    ziwen1943
        73
    ziwen1943  
       2022-05-05 16:51:47 +08:00   ❤️ 2
    我是运维,说说我最近的工作:
    1. CICD-devops
    2. 交付部署加测试
    3. 强弱电维修
    4. 维修电脑,装系统
    5. 改光猫拨号,加 IPv6
    6. 内网抓病毒和挖矿,网络安全审计
    7. 性能测试
    dorothyREN
        74
    dorothyREN  
       2022-05-06 00:41:42 +08:00
    摸鱼
    ryan4yin
        75
    ryan4yin  
       2022-05-16 22:31:14 +08:00
    @erhandsome 这篇文章讲得真清晰,主要就三种运维:
    - Infrastructure:主要负责最基础的硬件设施,网络,类似于 IaaS ,做的事情可参考 DigitalOcean
    - Platform:提供中间件技术,开箱即用的一些服务,类似于 PaaS ,做的事情可参考 Heroku, GCP, AWS 等
    - 业务 SRE:维护服务,应用,维护业务的正常运行
    ryan4yin
        76
    ryan4yin  
       2022-05-16 22:32:20 +08:00
    其他的运维也都是 Infra/Platform/业务 某些部分的结合,譬如很多创业公司中的「全能运维」
    crazychang
        77
    crazychang  
       2022-12-08 16:24:17 +08:00
    @dreamusername 请教一下 第三种做监控系统的运维开发有没有个什么称呼?
    huangzongzhuan
        78
    huangzongzhuan  
       260 天前
    @ziwen1943 逐渐离谱哈哈哈哈
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2957 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 11:06 · PVG 19:06 · LAX 04:06 · JFK 07:06
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.