携程AI后端开发专家(MJ030206)
任职要求
有算法平台开发或与算法团队深度合作经验,特别是模型部署、模型在线推理服务的实际项目经验。具备大语言模型或复杂模型在线部署(Triton, TorchServe, TensorFlow Serving)、性能调优和推理加速的实际项目经验。具备智能Agent系统核心模块(如知识库/RAG/记忆管理/工具调用)的设计或开发经验,熟悉相关框架(LangChain/LlamaIndex/MCP/A2A协议)和向量数据库。…
工作职责
负责大规模语言模型(LLM)及其他AI模型的在线服务部署、性能调优与推理加速,确保高并发、低延迟、高可用的模型服务。负责设计和开发智能Agent运行框架,实现核心模块,包括不限于知识库存储与检索(RAG)、Agent的长短期记忆存储、对接多模型协作协议(如MCP/A2A)等新型交互机制。探索和落地模型压缩、量化、动态批处理、服务化框架优化(Triton/TorchServe等)等推理优化技术。负责搜索推荐算法工程后端系统的设计、开发和维护,保障系统稳定高效运行,实现高并发在线特征工程、模型推理服务集成和服务质量监控等核心模块。负责系统架构的设计、优化及核心模块的代码实现(Java为主)。与产品经理、算法工程师、前端工程师紧密协作,理解需求,设计技术方案并推动落地。负责系统的日常维护、监控、故障排查和性能调优。
负责大规模语言模型(LLM)及其他AI模型的在线服务部署、性能调优与推理加速,确保高并发、低延迟、高可用的模型服务。负责设计和开发智能Agent运行框架,实现核心模块,包括不限于知识库存储与检索(RAG)、Agent的长短期记忆存储、对接多模型协作协议(如MCP/A2A)等新型交互机制。探索和落地模型压缩、量化、动态批处理、服务化框架优化(Triton/TorchServe等)等推理优化技术。负责搜索推荐算法工程后端系统的设计、开发和维护,保障系统稳定高效运行,实现高并发在线特征工程、模型推理服务集成和服务质量监控等核心模块。负责系统架构的设计、优化及核心模块的代码实现(Java为主)。与产品经理、算法工程师、前端工程师紧密协作,理解需求,设计技术方案并推动落地。负责系统的日常维护、监控、故障排查和性能调优。

1. 负责开放平台后端核心模块的全链路质量保障,包括网关、多模态交互系统、设备用户中心等全球基础设施服务的功能、性能与稳定性测试; 2. 主导多模态对话系统(语音+视觉+文本)的服务端测试,设计覆盖复杂交互场景、上下文理解、意图识别准确率等维度的验证方案,确保产品功能高质量交付; 3. 构建高并发、高可用AI服务的质量评估体系,通过压力测试、故障注入、混沌工程等手段,验证系统在大规模并发请求下的性能表现、容错能力与恢复机制; 4. 与AI智能软硬件测试、APP测试密切配合,评估端端测试方案的异常覆盖风险,开发自动化工具,提升接口回归、异常场景模拟等测试效率; 5. 与后端开发、算法、产品及运维团队紧密协作,参与需求评审、架构设计与线上问题复盘,主动识别质量风险并推动系统性改进。
参与新一代AI原生开发平台的整体架构设计与演进,确保系统具备卓越的性能、高可用性与灵活的可扩展性,为平台的长期发展奠定坚实的技术基石。 参与构建统一的AI基础设施平台,为通义灵码、AI Builder,以及前沿的Compute Use Agent等多个AI产品线提供坚实的技术底座。通过沉淀和抽象通用的模型服务、RAG组件、Agent框架等核心能力,从根源上解决重复建设与技术孤岛问题。 作为技术核心,负责攻克系统中的关键技术难题和性能瓶颈,并对团队成员进行技术指导,分享最佳实践,提升团队整体的AI工程能力和技术水平。 持续关注AI领域的前沿技术动态(如LLMs、多模态、Agent等),并能结合业务场景进行前瞻性思考,将创新技术驱动产品和架构的革新。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架,优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline; 2、研发支持多机多卡 RL 的分布式训练框架,开发TP/PP/ZeRO-3与RL流程的动态协同机制,解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链,主导框架与 MLOps 平台集成,提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作,参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代; 5、参与分析各业务 GPU 利用率与饱和度等指标,结合业务场景持续优化训练框架能力,提升框架领先性。