一家在纳斯达克上市的公司提供了一个自助服务平台,让营销人员和广告公司按程序搜索和购买数字广告库存,它正在寻找一名网站可靠性工程师。被选中的候选人将专注于平台的基础设施,同时帮助团队摆脱配置管理的关注。该公司正在开发一个在线需求方平台,为数字媒体买家提供创新的购买选择。到目前为止,该公司已成功获得2.55亿美元以上的资金。这将是一个长期的全职职位,需要与AEST时区有4个小时以上的重叠。
工作职责:
- 为运行分布式系统所需的硬件提供大规模解决方案
- 让所有团队都能获得自动化、工具和流程,使产品团队更快速、更安全地出货
- 通过开发、安装、运行和增加自助工具和自动化的功能来确保可支持性,为我们的基础设施提供创新解决方案
- 为了有效地推进共同的目标,积极与你的团队和公司其他部门沟通
- 在操作过程中,清楚地了解费用以及在时间、实施和客户效果方面的投资回报,以减少复杂性和操作危险性
- 要充分理解一个目的背后的 "原因",思考超越眼前的任务
- 对新的想法持开放态度,理解他人的观点,并表现出寻找和建立共同点的兴趣
- 参与根本原因分析和事后谈话,以成功地促进业务健康的长期变化。
- 分析过程中的低效问题,并进行适当的修复,以加快执行速度,减少人工劳动。
- 负责关键性能指标的定义、跟踪、监测、数据收集和分析、能力建模和配置管理。
- 参与24/7的轮流值班
- 解决DevOps问题,但更强调主动维护、监控和解决问题。
工作要求:
- 工程学、计算机科学的学士/硕士学位(或同等经验)
- 至少有3年以上网站可靠性工程师的相关经验
- 3年以上使用Linux的工作经验
- 2年以上使用Ansible/Chef/Puppet/Salt等的工作经验。
- 对Linux/脚本基础知识有丰富的经验,并有能力与其他工具一起工作
- 有用Golang、TypeScript、Ruby和C#编写干净、可维护和经过良好测试的代码的经验
- 有丰富的设计、开发、部署和支持面向服务的应用程序的经验
- 在Kubernetes、Docker、ArgoCD、Backstage、Kafka、服务发现(即Consul)、AWS、Azure或阿里巴巴云(Aliyun)方面有深入的领域知识
- 在Linux操作系统内部、文件系统、存储技术、协议和网络栈方面有丰富的工作经验
- 对GitOps工具,如Terraform、Ansible或CloudFormation有深刻认识
- 对系统设计以及各种策略的好处和限制有扎实的了解
- 在开发永远在线的系统方面有丰富的知识,与一系列的技术和服务层合作
- 有利用数据驱动的策略进行短期赌注和长期投资的经验
- 对物理(on-prem)服务器的内部结构、其管理和操作有深刻的理解
- 曾为重要的大规模项目做出过实质性的、自我驱动的贡献
- 具有解决问题的逻辑性,出色的沟通和写作能力
- 熟悉Python和Go就更好了
- 优秀的英语口语和书面沟通能力