平头哥平头哥-AI DevOps 专家-上海
任职要求
我们希望你具备: ● 计算机相关专业本科及以上学历,5年以上DevOps、SRE、平台工程或自动化系统开发经验 ● 精通Linux系统、容器化技术(Docker)与编排系统(Kubernetes),具备大规模集群管理与调优经验 ● 熟练掌握至少一门主流编程语言(Python / Go / Java),具备良好的工程规范与系统设计能力 ● 深入理解监控告警、日志分析、自动化运维等核心系统,有实际平台建设或开源项目贡献经验 ● 对人工智能在系统工程中的应用有深刻理解或实践经验,熟悉常见机器学习算法(如分类、聚类、时序预测)在日志分析、异常检测、资源优化等场景的落地 ● 具备优秀的系统思维、问题拆解能力与跨团队协作能力,能够独立主导复杂系统的设计与推进 加分项: ● 有MLOps实践经历,熟悉MLf…
工作职责
我们正在寻找具备深厚技术功底、前瞻性视野和丰富实战经验的DevOps平台工程专家,加入我们致力于构建智能化研发基础设施的核心团队。在这里,你将主导下一代AI驱动的Devops平台与智能运维系统的设计与落地,推动软件研发流程向自动化、可观测性、自愈能力和数据驱动决策全面进化。 作为团队的技术骨干,你将: 1. 设计打造企业级智能化运维(AIOps)体系 基于Python、Go等语言,构建自动化运维工具链与平台化能力,实现基础设施即代码(IaC);引入异常检测、根因分析、故障传播图谱等AI算法,提升系统可观测性与故障响应速度,推动运维从“被动响应”向“主动预防”转变。 2. 构建全链路智能监控与自愈系统 设计并落地覆盖应用、服务、资源的端到端监控体系,集成Prometheus、Grafana、ELK、OpenTelemetry等主流技术栈;结合时序预测(LSTM、Prophet)、无监督异常检测(Isolation Forest、One-Class SVM)等模型,实现性能瓶颈预警、自动诊断与部分场景的闭环自愈。 3. 推动MLOps与DevOps深度融合 主导机器学习模型训练流水线(ML Pipeline)与模型服务化(Model Serving)平台建设,设计模型版本管理、A/B测试、流量灰度、监控告警与快速回滚机制,支撑AI能力高效、稳定地规模化落地。
职位描述: 作为 AI 软件测试开发高级技术专家,您将参与平头哥 AI 芯片从硅前到硅后的研发过程并推动实现产品化. 您将负责构建高覆盖率的测试体系,确保框架的功能正确性、性能优化和稳定性。 主要职责: 参与 AI 芯片解决方案的系统测试工作,保证产品的交付质量; 参与 AI 领域推理框架,模型训练的测试策略,测试方法,测试工具以及测试用例设计。 参与 AI 领域软件基础框架,算子库,编译的测试策略,测试方法,测试工具以及测试用例设计。 参与设计、建立以及推动 AI 芯片软件质量持续提升流程。 与开发团队、项目管理团队一起制定软件需求开发计划,并且制定对应的测试开发计划, 参与平头哥整体软件质量流程建设,对软件开发的质量进行监控和追踪.
特斯拉为信息技术部开放 IT MFG DevOps AI 全职岗位(工作地点:特斯拉上海超级工厂)。若你是融合 AI 开发、DevOps 实践与制造业技术的全能专家,能在智能制造场景下高效应对挑战、解决复杂技术问题,拒绝重复低效的工作模式,那么该岗位正适合你。 IT MFG DevOps AI 是连接公司 IT 系统与生产制造环节的核心角色,身处智能制造落地的一线。你将每日对接 AI 技术研发、容器化部署与生产运维等多领域工作,通过技术实践支持公司优化生产流程、提升制造效率,助力实现智能制造转型的核心目标。 岗位职责 • 负责 AI 算法研发、模型优化与训练,聚焦生产线数据分析、质量控制、故障检测、自动化生产等场景,确保 AI 技术适配制造业务需求。 • 基于 Kubernetes(K8s)与 Docker 容器技术,完成 AI 解决方案的部署、监控与扩展,保障生产环境中系统的高可用性与稳定性。 • 参与 DevOps 流程建设,优化 AI 模型与系统的开发、测试、部署全链路,实现自动化部署、持续集成(CI)与持续交付(CD)。 • 与生产、质量控制、研发等制造相关部门对接,深入理解业务痛点,提供数据驱动的 AI 技术解决方案。 • 快速响应生产线上的技术需求与故障,排查 AI 系统、容器集群、网络环境等问题,减少对生产进度的影响,提升生产效率与质量。 • 跟踪 AI 与 DevOps 领域前沿技术(如工业大模型、云原生运维)及行业动态,推动新技术在制造场景的预研与应用,持续优化系统性能。
1、研发面向云计算底座海量数据的大模型,包括但不限于代码大模型、全模态、大规模图学习等领域相关的大模型的应用算法研发; 2、参与大模型应用研发全流程的工作,包括但不限于模型算法设计、代码开发、训练、部署优化、调试、评测;技术创新如专利、论文的撰写;外部技术影响力交流等; 3、推动大模型在DevOps提效、内外部智能体业务应用、爆款AI原生应用、安全和技术风险防控等场景的业务落地;
我们是中台技术部大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势。其中 QuickSilver 大模型生产部署平台负责调度公司内所有稠密类模型训练与推理资源,基于自建训推引擎,为公司所有大模型算法同学提供端到端一站式AI服务,包括数据管理,模型管理,模型训练、压缩、推理、部署,服务管理,资源调度等一系列能力,持续赋能小红书社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 岗位职责: 1、负责大模型平台整体架构设计,构建高可用、高性能、可扩展的云原生体系。 2、主导大模型全流程 DevOps/MLOps 工程体系建设,打造端到端一站式平台能力。 3、推动训练框架、推理引擎、压缩工具链与平台深度集成,提升模型研发与发布效率。 4、负责平台核心模块研发(模型管理、任务管理、实验系统、评测与发布等)。 5、持续优化平台性能、稳定性与可观测性,支撑多模型、多业务的规模化生产需求。 6、跟踪并引入行业前沿 AI Infra 技术,推动平台能力和产品体验持续演进。 7、协同上下游团队进行必要的资源调度与自动化优化,共同提升算力效率。