logo of thead

平头哥平头哥-AI DevOps 专家-上海

社招全职5年以上技术-芯片地点:上海状态:招聘

任职要求


我们希望你具备:
● 计算机相关专业本科及以上学历,5年以上DevOps、SRE、平台工程或自动化系统开发经验
● 精通Linux系统、容器化技术(Docker)与编排系统(Kubernetes),具备大规模集群管理与调优经验
● 熟练掌握至少一门主流编程语言(Python / Go / Java),具备良好的工程规范与系统设计能力
● 深入理解CI/CD、监控告警、日志分析、自动化运维等核心系统,有实际平台建设或开源项目贡献经验
● 对人工智能在系统工程中的应用有深刻理解或实践经验,熟悉常见机器学习算法(如分类、聚类、时序预测)在日志分析、异常检测、资源优化等场景的落地
● 具备优秀的系统思维、问题拆解能力与跨团队协作能力,能够独立主导复杂系统的设计与推进
加分项:
● 有MLOps实践经历,熟悉MLflowKubeflow、Seldon、KServe等工具链;
● 在AIOps、智能调度、故障预测等领域有实际项目成果或论文发表;
● 参与过大型企业级DevOps平台或内部PaaS/IaaS系统建设;
● 熟悉云原生生态(AWS/GCP/AliCloud),具备多云或混合云架构经验;
● 开源社区活跃者,有知名项目贡献或维护经验。
我们提供:
● 深度参与AI与系统工程融合创新的机会,接触全球前沿技术趋势
● 与资深架构师和技术专家共事的成长环境,持续提升技术深度与影响力
● 高度开放、结果导向、鼓励技术创新的团队文化,支持你在关键技术方向上自主探索
● 具有竞争力的薪酬、弹性工作制与长期发展通道,为你的职业进阶保驾护航。
加入我们,用AI重塑研发效能,让系统更聪明,让工程师更专注创造价值!

工作职责


我们正在寻找具备深厚技术功底、前瞻性视野和丰富实战经验的DevOps平台工程专家,加入我们致力于构建智能化研发基础设施的核心团队。在这里,你将主导下一代AI驱动的CI/CD平台与智能运维系统的设计与落地,推动软件研发流程向自动化、可观测性、自愈能力和数据驱动决策全面进化。
作为团队的技术骨干,你将:
1. 设计并构建高可用、智能化的CI/CD平台 
主导持续集成与持续交付系统的架构演进,支持大规模分布式研发协作;探索机器学习在构建失败预测、测试用例智能推荐、资源调度优化等场景的应用,显著提升交付效率与稳定性。
2. 打造企业级智能化运维(AIOps)体系
基于Python、Go等语言,构建自动化运维工具链与平台化能力,实现基础设施即代码(IaC);引入异常检测、根因分析、故障传播图谱等AI算法,提升系统可观测性与故障响应速度,推动运维从“被动响应”向“主动预防”转变。
3. 构建全链路智能监控与自愈系统
设计并落地覆盖应用、服务、资源的端到端监控体系,集成Prometheus、Grafana、ELK、OpenTelemetry等主流技术栈;结合时序预测(LSTM、Prophet)、无监督异常检测(Isolation Forest、One-Class SVM)等模型,实现性能瓶颈预警、自动诊断与部分场景的闭环自愈。
4. 推动MLOps与DevOps深度融合
主导机器学习模型训练流水线(ML Pipeline)与模型服务化(Model Serving)平台建设,设计模型版本管理、A/B测试、流量灰度、监控告警与快速回滚机制,支撑AI能力高效、稳定地规模化落地。
包括英文材料
Python+
Java+
Go+
Linux+
Unix+
TCP/IP+
Spring Boot+
Django+
Kubernetes+
学历+
DevOps+
Docker+
系统设计+
CI+
CD+
机器学习+
算法+
MLflow+
Kubeflow+
PaaS+
IaaS+
AWS+
相关职位

logo of thead
社招8年以上技术-芯片

职位描述: 作为 AI 软件测试开发高级技术专家,您将参与平头哥 AI 芯片从硅前到硅后的研发过程并推动实现产品化. 您将负责构建高覆盖率的测试体系,确保框架的功能正确性、性能优化和稳定性。 主要职责: 参与 AI 芯片解决方案的系统测试工作,保证产品的交付质量; 参与 AI 领域推理框架,模型训练的测试策略,测试方法,测试工具以及测试用例设计。 参与 AI 领域软件基础框架,算子库,编译的测试策略,测试方法,测试工具以及测试用例设计。 参与设计、建立以及推动 AI 芯片软件质量持续提升流程。 与开发团队、项目管理团队一起制定软件需求开发计划,并且制定对应的测试开发计划, 参与平头哥整体软件质量流程建设,对软件开发的质量进行监控和追踪.

更新于 2025-09-22
logo of antgroup
社招5年以上技术类-开发

1、研发面向云计算底座海量数据的大模型,包括但不限于代码大模型、全模态、大规模图学习等领域相关的大模型的应用算法研发; 2、参与大模型应用研发全流程的工作,包括但不限于模型算法设计、代码开发、训练、部署优化、调试、评测;技术创新如专利、论文的撰写;外部技术影响力交流等; 3、推动大模型在DevOps提效、内外部智能体业务应用、爆款AI原生应用、安全和技术风险防控等场景的业务落地;

更新于 2025-09-01
logo of honor
社招5年以上研发类

1、设计、开发和维护机器学习平台及相关工具,支持nlp,cv等模型的训练和推理; 2、负责训练&推理优化,包括但不限于GPU计算加速、网络通信优化,存储性能提升等; 3、联合算法团队,搭建及优化分布式机器学习训练及推理系统,能够根据数据特点从算法和工程角度进行优化和调整; 4、构建高可用的模型服务,保证服务的稳定性、高效性。让平台不断适应业务发展的需求和趋势; 5、参与开源社区的贡献,推动公司技术在业界的影响。

更新于 2025-04-28
logo of eleme
社招3年以上技术类-运维

1、负责阿里本地生活行业产品技术方案、售前接入集成、售后保障咨询等工作 2、针对外卖、零售等各行业特点深入用户、商户、骑手、ISV等多角色业务场景,提供针对性技术保障服务。 3、深入故障应急、风险识别、监控发现、体验治理等一个或多个技术领域,并将相关能力平台化扩展与多场景复制,解决实际场景中面临的问题,提升全域用户体验 4、基于以上技术领域能力和现有技术保障体系,结合行业特性及挑战设计开发技术保障平台,制定稳定性保障策略与整体方案,并持续挖掘需求、痛点和创新点。

更新于 2025-08-22