阿里巴巴业务技术-【急聘】大语言模型(LLM)算法工程师-AI软件研发方向
任职要求
1. 专业背景: 计算机、人工智能、软件工程等相关专业硕士及以上学历,3年以上经验;精通Python及至少一种深度学习框架(如PyTorch)。 2. 模型经验: 具备扎实的NLP基础和LLM(如GPT/Llama)项目经验,熟悉预训练、SFT、RLHF等关键技术,有实际的大模型训练和优…
工作职责
背景介绍: 我们正在构建一个深度理解淘宝研发上下文的领域大模型,目标是打造一个具备“架构师级”洞察力的AI模型,从根本上提升研发效率与质量。如果你渴望在一个真实、复杂的场景中,将LLM的能力推向新的高度,并亲手塑造下一代软件研发的未来,我们期待你的加入! 1. 领域模型训练: 负责淘宝研发领域大模型的核心算法,主导持续预训练(Continual Pre-training)、指令微调(SFT)和对齐(RLHF/DPO)等训练流程; 2. 知识注入与推理: 设计并实践创新的数据方案,将代码、文档、配置等异构研发知识高效注入模型;通过多任务学习、FIM等范式,增强模型对软件工程的深度理解与复杂推理能力; 3. 能力评估与迭代: 建立科学的评测体系,精准评估模型在代码溯源、影响分析、故障排查等高阶任务上的能力;分析bad case,驱动数据和算法的闭环优化。
我们正在寻找兼具产品思维与技术深度的AI产品研发工程师,你将负责设计并开发基于大语言模型的智能体(AI Agent)与多智能体系统,致力于提升工程研发全流程的协作效率。你的工作将直接赋能工程师和整套产品研发流程,通过AI技术解决研发过程中的真实痛点,定义问题并驱动落地。我们提供参与定义和打造下一代智能研发平台的机会,与顶尖的技术与产品团队共同工作,赋能公司核心工程效能,工作成果清晰可见。 1、产品化AI Agent研发:主导面向软件工程领域的AI Agent产品研发,深入理解工程师工作流,设计并实现能够与工程师深度协作、切实提升编码与设计效率的智能体 2、Multi-Agent系统设计:探索并构建多智能体协作框架,解决人机协同、智能体间任务分配与协作的复杂问题,打造高可用的自动化工程协同平台 3、数据驱动与算法优化:分析人机交互数据,提炼业务场景中的关键模式与知识,通过算法改进复杂意图理解、任务自动化生成、架构智能建议等核心环节的产品体验与效果 4、复杂任务AI解决方案:研发Multi-Agent系统对复杂研发任务的自动化分解、规划与执行能力,并使其能够学习与引用团队积累的最佳实践与经验,持续优化问题解决路径 5、技术前瞻与落地:紧密跟踪业界在AI智能体与大模型应用领域的最新进展,确保团队技术方案的前瞻性,并能够将前沿研究转化为稳定、可衡量的产品价值
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架,优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline; 2、研发支持多机多卡 RL 的分布式训练框架,开发TP/PP/ZeRO-3与RL流程的动态协同机制,解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链,主导框架与 MLOps 平台集成,提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作,参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代; 5、参与分析各业务 GPU 利用率与饱和度等指标,结合业务场景持续优化训练框架能力,提升框架领先性。
【业务介绍】 作为公司统一的机器学习平台团队,负责调度公司所有模型训练与推理资源;基于自建的训推引擎,构建公司统一的机器学习平台,为公司所有算法同学(稀疏 & 稠密,含 LLM) 模型迭代提供端到端的一站式服务;包括 数据生产,模型训练,模型上线,特征管理,模型测试,资源管控等一系列能力。 【岗位职责】 1、负责机器学习链路,离在线数据相关的开发工作,包括样本数据、特征数据等的数据链路搭建、任务运维和调优、性能优化等 2、负责小红书大规模机器学习平台的后台系统设计和开发工作;包括样本平台,特征平台,训练平台,推理平台等AI应用后台建设等; 3、研究分析业内AI平台产品,优化技术方案,改进产品功能,完善产品体验。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 工作职责: 1、参与/负责研发面向大语言模型(LLM)/多模态大模型(MLLM)等类型模型的推理服务框架; 2、参与/负责KV Router、PD分离/EPD分离、KVCache管理、动态PD调整等分布式推理能力建设; 3、通过并行计算优化、分布式架构优化、异构调度等多种框架技术,打造高效、易用、领先的AI推理框架; 4、参与/负责构建推理框架的系统容错能力,包括但不限于请求迁移、优雅退出、故障检测、自愈等能力建设; 5、深度参与周边深度学习系统多个子方向的工作,包括但不限于模型管理、推理部署、日志/监控、工作流编排等; 6、与全公司各业务算法部门深度合作,为重点项目进行算法与系统的联合优化,支撑业务目标达成。