小鹏汽车大模型 devops 工程师
任职要求
职位要求 1. 硕士及以上学历,计算机、软件工程、人工智能等相关专业优先 2. 熟悉Linux开发环境,具备良好扎实的算法数据结构基础、良好的编程风格和系统设计能力。 3. 优秀的编码能力,熟练掌握Java和其他至少一门语言(如golang、 python等) 4. 熟悉 pytorch 框架以及主流大模型的基本流程 5. 有强烈的工作责任心,较好的学习能力、沟通能力
工作职责
1. 负责公司机器学习平台相关子系统的设计、开发和优化工作,打造易用、稳定、高效的机器学习平台 2. 设计、开发大规模机器学习系统的 debug 工具,在分布式环境下可以快速发现故障 3. 针对公司内多种异构硬件,提供统一的基础镜像/环境 4. 负责公司内部 CI/CD/质量流程开发
打造业界一流的 DevOPS 平台工程体系。 参与公司级统一建站、发布运维、变更管控等相关平台的系统设计、研发实现和稳定性保障。 通过技术工程和平台建设,提升公司日常研发运维、活动保障、机房迁移等场景的实施效率和质量。 洞察同领域业务发展方向,引入大模型提升 DevOPS 产品能力。
1、负责打造业界一流的 DevOPS 平台工程体系; 2、参与公司级统一建站、发布运维、变更管控等相关平台的系统设计、研发实现和稳定性保障; 3、通过技术工程和平台建设,提升公司日常研发运维、活动保障、机房迁移等场景的实施效率和质量; 4、洞察同领域业务发展方向,引入大模型提升 DevOPS 产品能力; 5、负责小红书多云架构下Finops平台技术架构和设计方案; 6、构建一流的技术服务商品体系,提升技术成本洞察及决策效率。

负责大模型应用系统的后端架构设计与开发,保障系统的高可用性、稳定性及可扩展性; 参与智能体(Agent)和垂直领域大模型应用的服务端研发,持续优化业务落地效果; 负责后端服务模块开发,包括接口设计、服务拆分、数据库建模等核心工作; 参与国产化大模型的系统适配与框架设计,提升服务的通用性与兼容能力; 协同算法、前端、测试等团队,确保系统按计划稳定上线,并解决客户现场技术问题; 持续关注大模型和工程技术的发展趋势,结合业务需求推进服务端架构和性能的优化。
1、负责开发IT统一运维平台、监控报警体系和Devops自动化平台的构建、设计、开发、部署、升级与维护,包括不限于监控告警系统、日志系统、容量管理、CMDB资源管理、配置中心、调度系统、流程系统、IM服务平台等系统开发 2、运维自动化工具开发:基于SRE运维工作,理解需求背景和业务发展,开发自动化工具和平台提升效率; 3、SRE高可用保障:参与故障应急、稳定性优化等工作,并设计系统助力运维能力提升; 4、负责IT成本管理,稳定性建设,日志分析、挖掘问题隐患、配合制作相关预案,项目跟进 5、负责日常应用运维oncall,SRE,包括配置、优化、备份、故障处理等工作 6、关注行业趋势变化和竞品动态,持续完善产品功能; 7、撰写详细的产品需求文档(PRD)、原型设计(Wireframe/Mockup),清晰地向团队梳理需求,推进落地。