平头哥平头哥-AI DevOps 专家-上海
任职要求
我们希望你具备: ● 计算机相关专业本科及以上学历,5年以上DevOps、SRE、平台工程或自动化系统开发经验 ● 精通Linux系统、容器化技术(Docker)与编排系统(Kubernetes),具备大规模集群管理与调优经验 ● 熟练掌握至少一门主流编程语言(Python / Go / Java),具备良好的工程规范与系统设计能力 ● 深入理解监控告警、日志分析、自动化运维等核心系统,有实际平台建设或开源项目贡献经验 ● 对人工智能在系统工程中的应用有深刻理解或实践经验,熟悉常见机器学习算法(如分类、聚类、时序预测)在日志分析、异常检测、资源优化等场景的落地 ● 具备优秀的系统思维、问题拆解能力与跨团队协作能力,能够独立主导复杂系统的设计与推进 加分项: ● 有MLOps实践经历,熟悉MLf…
工作职责
我们正在寻找具备深厚技术功底、前瞻性视野和丰富实战经验的DevOps平台工程专家,加入我们致力于构建智能化研发基础设施的核心团队。在这里,你将主导下一代AI驱动的Devops平台与智能运维系统的设计与落地,推动软件研发流程向自动化、可观测性、自愈能力和数据驱动决策全面进化。 作为团队的技术骨干,你将: 1. 设计打造企业级智能化运维(AIOps)体系 基于Python、Go等语言,构建自动化运维工具链与平台化能力,实现基础设施即代码(IaC);引入异常检测、根因分析、故障传播图谱等AI算法,提升系统可观测性与故障响应速度,推动运维从“被动响应”向“主动预防”转变。 2. 构建全链路智能监控与自愈系统 设计并落地覆盖应用、服务、资源的端到端监控体系,集成Prometheus、Grafana、ELK、OpenTelemetry等主流技术栈;结合时序预测(LSTM、Prophet)、无监督异常检测(Isolation Forest、One-Class SVM)等模型,实现性能瓶颈预警、自动诊断与部分场景的闭环自愈。 3. 推动MLOps与DevOps深度融合 主导机器学习模型训练流水线(ML Pipeline)与模型服务化(Model Serving)平台建设,设计模型版本管理、A/B测试、流量灰度、监控告警与快速回滚机制,支撑AI能力高效、稳定地规模化落地。
职位描述: 作为 AI 软件测试开发高级技术专家,您将参与平头哥 AI 芯片从硅前到硅后的研发过程并推动实现产品化. 您将负责构建高覆盖率的测试体系,确保框架的功能正确性、性能优化和稳定性。 主要职责: 参与 AI 芯片解决方案的系统测试工作,保证产品的交付质量; 参与 AI 领域推理框架,模型训练的测试策略,测试方法,测试工具以及测试用例设计。 参与 AI 领域软件基础框架,算子库,编译的测试策略,测试方法,测试工具以及测试用例设计。 参与设计、建立以及推动 AI 芯片软件质量持续提升流程。 与开发团队、项目管理团队一起制定软件需求开发计划,并且制定对应的测试开发计划, 参与平头哥整体软件质量流程建设,对软件开发的质量进行监控和追踪.
1、研发面向云计算底座海量数据的大模型,包括但不限于代码大模型、全模态、大规模图学习等领域相关的大模型的应用算法研发; 2、参与大模型应用研发全流程的工作,包括但不限于模型算法设计、代码开发、训练、部署优化、调试、评测;技术创新如专利、论文的撰写;外部技术影响力交流等; 3、推动大模型在DevOps提效、内外部智能体业务应用、爆款AI原生应用、安全和技术风险防控等场景的业务落地;
1、深入理解客户的业务场景与技术架构,与客户的架构、开发及运维团队紧密协同,全面评估其现有云上应用架构与产品使用现状,围绕稳定性、可观测性与成本效能,设计并推动落地高可用、高韧性、高易用的云上优化方案。覆盖领域包括但不限于:云原生监控体系建设、风险主动发现机制、混沌工程与容灾演练、业务快速恢复与降级策略、微服务架构演进、FinOps成本治理及高可用架构重构等。 2、联动阿里云内部产品、研发、解决方案及技术服务团队,以客户架构视角驱动问题闭环、重大活动护航、风险治理与架构治理,沉淀可复用的最佳实践、方法论及工具产品,主动识别客户痛点并开展高阶专项服务。 3、持续追踪客户关键稳定性问题,推动根因分析与长效治理机制建设,并反哺阿里云产品与服务体系的持续优化与能力升级。 4、主导或深度参与客户云上架构改造项目的落地实施,通过架构调优、资源治理与技术选型,持续提升系统性能、业务连续性与资源使用效率,实现“稳、快、省”的云上运营目标。
我们是一个专注于Agentic Coding方向的充满活力和创业精神的创新业务团队,致力于通过智能化代码生成和开发工具重新定义软件开发和Devops体系。 随着Agentic Code技术的快速发展,我们正在寻找优秀的Agentic Code研发工程师/专家加入团队,共同构建下一代智能编程助手和自主代码开发系统,一起在LLM驱动的编程革命中创造历史! 负责基于大语言模型的Agentic Code产品核心能力的开发工作,实现代码续写、复杂问题分析与理解、代码生成与测试等功能,包括:代码补全、行间建议预测(NES - Next Edit Suggestion)、Agentic Code智能体等; 参与设计、开发和实现Agentic Code,构建具备代码理解、生成、调试和优化能力的自主编程代理系统,并能适应特定用例和环境; 从事AI领域相关算法研究及算法的工程化实现,以提升Agent能力(推理、规划、记忆、工具使用); 设计和实现高效的LLM算法,为代码自动生成、智能补全、bug检测等场景提供技术支撑; 参与设计多智能体协作架构,实现复杂编程任务拆解与分布式执行,提升Agentic Code的质量及效率; 持续跟踪Agentic Code、大模型、代码生成等前沿技术发展,推动团队技术水平提升。