阿里云阿里云智能-技术专家/高级开发工程师-通义晓蜜
任职要求
1.本科及以上学历,计算机、人工智能等相关专业毕业;精通Java等主流编程语言,熟悉微服务、分布式系统设计及云原生技术(如Kubernetes、Serverless); 2.具备扎实的计算机基础(如算法、数据库、网络),对开源技术生态有深入理解和实践经验; …
工作职责
1. 负责电话场景(呼入、外呼)语音机器人的工程研发,高效承接产品需求、输出标准技术方案并推进技术方案落地,确保系统的稳定性和可扩展性; 2. 与产品、算法、运营、测试等合作团队积极协同,提升产品的用户提升及技术竞争力,通过技术驱动业务发展; 3. 技术支持,对客户提出的问题可以快速分析原因并给出合理的解决方案; 4. 通过内外部渠道,了解并洞悉客户需求,并凝练形成对应的技术洞察; 5. 通过行业会议、技术媒体、学术研究、友商交流等方式,收集领域内的最新技术信息,包括但不限于技术原理、技术优劣势、应用场景等。
1. 核心架构设计:参与通义晓蜜下一代企业级对话Agent的技术架构设计,在准确率、响应延迟、成本控制之间寻找最优解,制定具备行业竞争力的技术方案。 2. 对话Agent工程化落地:负责对话Agent运行时的架构设计与开发,包括但不限于提示词工程、记忆、规划、工具调用以及复杂任务编排。 3. 高可用系统建设:针对大模型应用特有的长尾延迟和高并发挑战,优化系统吞吐与稳定性;主导代码Review,通过全链路调试与优化,确保线上服务的高可靠性。 4. 数据闭环建设:参与构建“人机协作”的数据反馈机制,通过线上数据回流反哺Agent能力的持续迭代。 5. 前沿技术跟踪与ConvAI规划,持续追踪业界ConvAI、Agentic Workflow、Multi-modal Interaction(多模态交互)等前沿技术动态。

1. 核心架构设计:参与通义晓蜜下一代企业级对话Agent的技术架构设计,在准确率、响应延迟、成本控制之间寻找最优解,制定具备行业竞争力的技术方案。 2. 对话Agent工程化落地:负责对话Agent运行时的架构设计与开发,包括但不限于提示词工程、记忆、规划、工具调用以及复杂任务编排。 3. 高可用系统建设:针对大模型应用特有的长尾延迟和高并发挑战,优化系统吞吐与稳定性;主导代码Review,通过全链路调试与优化,确保线上服务的高可靠性。 4. 数据闭环建设:参与构建“人机协作”的数据反馈机制,通过线上数据回流反哺Agent能力的持续迭代。 5. 前沿技术跟踪与ConvAI规划,持续追踪业界ConvAI、Agentic Workflow、Multi-modal Interaction(多模态交互)等前沿技术动态。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架,优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline; 2、研发支持多机多卡 RL 的分布式训练框架,开发TP/PP/ZeRO-3与RL流程的动态协同机制,解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链,主导框架与 MLOps 平台集成,提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作,参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代; 5、参与分析各业务 GPU 利用率与饱和度等指标,结合业务场景持续优化训练框架能力,提升框架领先性。
【业务介绍】 作为公司统一的机器学习平台团队,负责调度公司所有模型训练与推理资源;基于自建的训推引擎,构建公司统一的机器学习平台,为公司所有算法同学(稀疏 & 稠密,含 LLM) 模型迭代提供端到端的一站式服务;包括 数据生产,模型训练,模型上线,特征管理,模型测试,资源管控等一系列能力。 【岗位职责】 1、负责机器学习链路,离在线数据相关的开发工作,包括样本数据、特征数据等的数据链路搭建、任务运维和调优、性能优化等 2、负责小红书大规模机器学习平台的后台系统设计和开发工作;包括样本平台,特征平台,训练平台,推理平台等AI应用后台建设等; 3、研究分析业内AI平台产品,优化技术方案,改进产品功能,完善产品体验。