蚂蚁金服蚂蚁集团-大模型后训练专家-CPO线
任职要求
1、有2~5年的大模型后训练经验,专业不限(计算机/软工/数学等相关背景更易上手) ; 2、大模型相关…
工作职责
1、负责HR业务场景的大模型后训练工作,包括:样本构造、模型微调、效果迭代等环节; 2、负责HR业务场景的Agent自主学习工作,包括:自动识别badcase、自动归因、合成样本数据、动态构建评测集等。
我们正在寻找一位具有深厚技术背景和丰富经验的大模型(多模态)优化专家,加入我们的团队,共同推动前沿技术的发展。您将负责主导模型的post-training工作,涵盖数据清洗、模型蒸馏与对齐、模型量化、领域能力的加强等方面,以优化模型性能并在金融任务中取得卓越效果。 主导模型的post-training工作:包括但不限于数据清洗、模型的蒸馏与对齐、模型的量化、领域能力的加强,以优化模型性能。 优化模型在金融任务中的效果:通过各种技术手段,确保模型在金融任务中的准确性和鲁棒性。 具备产品化思维,能够在客户现场完成算法架构设计与实施 设计和实现高效的模型优化策略:结合最新的研究成果和技术趋势,设计并实现高效的模型优化策略。 性能监控和反馈机制:实施和优化模型在实际应用中的部署,包括性能监控和反馈机制。 撰写技术文档和研究报告:与团队和利益相关者沟通项目进展与成果,撰写详细的技术文档和研究报告。
1、研究模型和技术方案,探索大模型训练在安全领域应用的上限; 2、深入大模型技术栈,结合安全关键问题进行深度产品集成和落地,如代码分析、漏洞检测、自动化攻击研判、Oncall; 3、数据构建/合成/标注/清洗、推理模型/代码模型等后训练(SFT/RL)、框架开发、模型加速与蒸馏等; 4、搭建高效、鲁棒和低成本的模型算法服务,应用到大规模场景; 5、跨团队、跨职能沟通协调,与业务方紧密协作,促进团队和合作方共赢。
1、主导多模态大模型的后训练全流程优化,包括指令微调(SFT)、强化学习(RLHF/DPO/PPO)、模型蒸馏等技术的研发与工程实现,持续提升模型在通用领域及垂直领域(如短视频理解、电商理解)的泛化能力和安全性; 2、参与多模态合成数据生成(覆盖纯文本、图文及视频等内容理解维度)、建立数据质量评估体系,设计数据蒸馏流程,推动数据-模型-评测迭代优化; 3、面向短视频社区、电商内容理解等场景,解决后训练阶段的核心挑战,如跨模态对齐一致性、长上下文推理、多任务指令冲突优化以及多模态智能推理探索等;推动技术成果转化,主导模型在快手短视频社区的集成落地(例如RAG增强系统、多模态Agent任务规划),并通过API封装与服务化支撑业务创新; 4、跟踪前沿多模态大模型后训练技术的前沿演进,探索SFT自动化迭代、轻量化RLHF以及reward model一体化等创新技术方向,形成专利或顶会论文提升团队技术影响力。