阿里云阿里云智能-AI全栈工程师-上海
任职要求
1、全栈扎实的编程能力,熟悉至少一门前后端开发语言(Python、Golang、Java、Nodejs); 2、熟悉后端架构与云原生技术,具备高并发、分布式系统开发经验; 3、具备一定的前端开发能力,能够使用React、Vue等MVVM框架完成组件级、页面级开发; 4、良好的学习能力、自驱力、问题分析与解决能力、英文阅读能力、与…
工作职责
1、大模型应用前端界面与后端服务开发、数据库设计与优化; 2、大模型应用开发全流程工作,包括但不限于多模态大模型接入、AI Agent开发、RAG优化、流程编排、MCP及工具开发、AI可观测性等; 3、参与大模型应用产品的需求分析、技术选型、方案设计、用户体验提升等; 4、关注AI与大模型领域技术发展趋势,并灵活应用于项目中。
1、负责AI原生应用的全栈开发,包括对话/Agent交互界面、后端服务架构、数据建模与持久化方案设计; 2、设计与构建Agent系统,涵盖多Agent协作、工具调用(MCP/Function Calling)、长期记忆管理、Context Engineering及自主规划与执行; 3、设计规模化的外部数据接入方案——包括MCP数据源集成、实时API编排、结构化数据查询、知识图谱、向量检索等,让Agent能可靠地获取和利用外部世界的信息; 4、建设AI应用的质量与安全基础设施——评测体系(Eval)、可观测性(Tracing/Logging)、安全护栏(Guardrail)、运行时行为约束与纠偏(Harness),构建持续迭代闭环; 5、设计与实现API智能路由——将长程复杂任务拆解为子任务,根据任务特征(复杂度、模态、延迟要求等)动态选择最合适的模型,在质量、效率和成本之间取得最优平衡; 6、紧跟基础模型能力演进,将新能力(长上下文、原生工具调用、模型推理等)快速转化为产品特性。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架,优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline; 2、研发支持多机多卡 RL 的分布式训练框架,开发TP/PP/ZeRO-3与RL流程的动态协同机制,解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链,主导框架与 MLOps 平台集成,提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作,参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代; 5、参与分析各业务 GPU 利用率与饱和度等指标,结合业务场景持续优化训练框架能力,提升框架领先性。
【业务介绍】 我们是小红书内稠密类模型(LLM/MLLM/SD/CV/NLP)统一的AI平台QuickSilver,负责调度公司内所有稠密类模型训练与推理资源,基于自建的训推引擎,为公司所有AI算法同学迭代业务模型提供端到端一站式AI服务;包括数据管理,模型管理,模型训练、压缩、推理、部署,服务管理,资源调度等一系列能力。 工作职责: 1、负责稠密类模型训练推理开发平台的架构设计和核心功能研发 2、设计和实现大模型训练部署流程,包括模型fine-tuning、推理服务化等 3、构建云原生架构,设计高可用、高性能的微服务体系 4、优化平台性能,提升系统稳定性和可扩展性
1. 基于 NVIDIA Isaac 的仿真平台开发 ‒ 搭建和维护基于 NVIDIA Isaac Sim 的机器人仿真系统,支持多种机器人类型(例如移动机器人、机械臂、无人车等)。 ‒ 利用 NVIDIA Omniverse 技术,构建高保真的虚拟环境,模拟物理特性(如动力学、传感器特性、碰撞检测等)。 ‒ 开发和优化 Isaac Sim 中的自定义扩展模块,满足项目需求。 2. 环境建模与场景构建 ‒ 使用 NVIDIA Omniverse 和其他建模工具(如 Blender、Maya)创建逼真的仿真环境和场景。 ‒ 配置和调试虚拟传感器(如激光雷达、摄像头、IMU)以模拟真实硬件行为。 ‒ 构建动态交互场景,用于测试机器人在复杂环境中的性能。 3. 机器人控制与算法验证 ‒ 在仿真环境中集成和测试机器人算法(如SLAM、路径规划、运动控制)。 ‒ 验证和优化机器人感知算法(如视觉检测、环境感知)在高保真模拟环境中的效果。 ‒ 通过仿真结果分析算法性能,为实际机器人实施提供支持。 4. 系统集成与工具链开发 ‒ 与机器人硬件和软件团队合作,将仿真结果与实际机器人验证无缝对接。 ‒ 开发自动化测试工具和数据可视化分析工具,提高开发效率和数据洞察能力。 ‒ 集成 Isaac 与其他机器人框架(如 ROS/ROS 2)以支持全栈开发。 5. 研究与创新 ‒ 研究 NVIDIA Isaac 平台的最新功能和应用场景,将新技术引入仿真系统开发。 ‒ 跟踪机器人仿真领域的前沿技术(如物理引擎优化、AI 模型仿真、数字孪生技术),并应用于项目中。