阿里云阿里云智能-控制器高级研发工程师-北京/杭州
任职要求
•3 年以上Coding经验,精通Java、Python、C语言中的至少一种; •3 年以上IT、互联网、云计算开发相关工作经验; • 在多线程、高并发分布式编程、DevOps、操作系统、虚拟机、设计模式等领域有扎实认知; • 能提供高质量代码产出和文档沉淀,积极参与推动code review,提交代码前能完成自测; • 独立负责多个技术模块或全部模块并可参与团队内或跨团队项目,能够理解复杂度适中的业务需求和技术需求的关联性,做出合理的技术选型判断,并独立完成产品功能的技术方案设计; • 对技术领域基本原理有深刻理解,同时具备一定技术攻坚能力,能够解决单点复杂技术问题和工单(如一个较为复杂业务的性能优化、一个较低概率出现的稳定性问题); • 具备和业务或者团队…
工作职责
1、技术方案设计 • 收集、识别、分析客户需求,并确定技术方案的目标、范围和交付成果 • 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等 2、技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现 • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等 • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署 • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等 3、稳定性和性能优化 • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠 • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能 4、技术预研 • 跟踪和了解新的产品技术和趋势,根据业务需要提供新的技术支持和建议。 5、技术规划 • 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。
1. 负责阿里云面向AI智算场景的云网络控制系统的设计研发工作,包括技术可行性分析、方案选型、功能设计以及架构设计等工作。 2. 负责云网络控制器平台性能优化,为AI GPU计算、通用CPU计算提供极致的网络弹性需求。 3. 利用AI DevOps技术提升云网络控制器研发效率、运维效率和系统的整体稳定性,并形成标准化的运维产品方案落地。 4. 负责云网络控制器平台的线上运维和内部运营工作。
1. 负责阿里云面向AI智算场景的云网络控制系统的设计研发工作,包括技术可行性分析、方案选型、功能设计以及架构设计等工作。 2. 负责云网络控制器平台性能优化,为AI GPU计算、通用CPU计算提供极致的网络弹性需求。 3. 利用AI DevOps技术提升云网络控制器研发效率、运维效率和系统的整体稳定性,并形成标准化的运维产品方案落地。 4. 负责云网络控制器平台的线上运维和内部运营工作。
1.配合算法工程师,推动深度学习相关算法的落地,打造高吞吐、低延时的推理系统; 2.优化大模型推理性能,提升吞吐并控制成本; 3.优化大模型推理框架,提升框架易用性和可调试性。
1. 具身智能大模型研究与优化 (1) 研究和构建具身智能大模型(Embodied Foundation Models)与机器人大脑。 (2) 探索语言、视觉、动作等多模态融合机制(VLM / VLA / VLA-Agent)。 (3) 优化模型的长时记忆、推理能力与可泛化性。 2. 机器人智能算法研发 (1) 设计和实现机器人多模态感知、导航、操作、交互等核心算法模块。 (2) 推进大模型驱动的机器人任务规划与决策。 (3) 基于模拟器与真实世界数据,进行大规模对齐与强化学习(Sim2Real, RLHF, Imitation Learning)。 3. 系统落地与协同研发 (1) 与硬件与系统团队协作,推动模型算法在真实机器人平台上的部署与性能调优。 (2) 支撑具身智能大模型的云端训练体系、数据闭环与MLOps工程。 (3) 发表高水平论文或申请相关专利,推动业界与学界前沿研究。