阿里巴巴阿里国际站-大模型后训练工程师-LLM 训练
任职要求
1、熟练掌握 linux 环境下的 C++/Python 语言,有大规模机器学习经验优先至少掌握一种机器学习框架(Tensorflow,Pytorch 或其他自研框架)。 2、理解 GPU 硬件架构,理解 GPU 软件栈(CUDA,cuDNN),具备 GPU 性能分析经验…
工作职责
团队介绍 国际站引擎团队主要负责支撑阿里国际站搜推以模型推理服务(包括大模型、搜推广模型),公司AI核心团队,处于高速发展阶段。团队技术氛围好,AI业务处于业界前沿。业务侧主要支持Alibaba.com AI化,以及Accio.com(B端AI产品)。 职位描述 负责支撑阿里国际站大模型模型后训练服务参与开发和优化大模型后训练框架,支持千卡H100 & B200分布式训练集群的相关优化参与大模型结构设计,并联合业务进行模型训练效率提升和效果验证。
模型训练:参与大型语言模型的训练实验,学习如何通过思维链推理提升模型在复杂任务上的表现 算法探索:学习探索前沿强化学习算法,协助团队进行奖励模型的构建和优化 Reasoning技术探索:参与模型监督、自我提升等训练优化探索 训练框架优化:学习使用LLM训练框架,参与协助优化训练流程,提升团队开发效率
1. 参与大语言模型(LLM)后训练全流程优化,包括但不限于通用能力提升、安全对齐等方向。 2. 实现并应用SFT/RLHF/DPO/PPO/GRPO等算法,探索多目标奖励模型、过程监督等前沿技术,提升模型在指令遵循、逻辑推理、多任务泛化等方面的性能。 3. 构建模型效果评估体系,设计自动化评估方案,持续跟踪模型优化效果。 4. 参与技术开源与学术研究,发表顶会论文或贡献核心开源项目。
大模型训练工程师 工作内容: 深入参与垂类场景Agent大模型的预训练和后训练,构建领域对话大模型。 具体内容: 1. 支持预训练和后训练任务,并在导师指导下完成 PPO/DPO/GRPO 等算法应用及改进,支持大模型分布式训练实验。 2. 协助构建奖励模型:偏好数据清洗、特征工程、鲁棒性测试,跟踪实验指标及可视化分析。 3. 驱动效果闭环:搭建离线多维度指标与在线 A/B 体系,打造自迭代数据飞轮。
中台稠密引擎组,是小红书负责建设通用深度学习训练推理引擎的团队,面向全公司LLM、多模态LLM、SD、传统CV&NLP等稠密计算型模型训练与推理的业务场景,打造高效、易用、业界领先的训练与推理引擎,为小红书社区、商业化、安全等众多业务方向提供先进的引擎能力,支撑业务持续提升训练推理效率、模型迭代效率与算法研发效率。 1、参与设计和实现深度学习后训练及微调的前沿算法(包括但不限于RFT、RLHF等),以适应多样化的业务场景; 2、结合业务数据和场景,评估选择最适合的微调算法,以支撑业务大语言模型(LLM)微调指标的提升; 3、与数据团队紧密合作,深入理解数据特性,参与设计实现数据提质算法引擎工具,产出高质量数据集提升模型微调效果; 4、与公司内各算法团队深度合作,参与或负责大语言模型、多模态大模型等业务场景的后训练端到端效果提升及落地; 5、密切关注业界 LLM 微调算法和数据提质领域的前沿论文,并整合新技术和算法到训练引擎中,提升框架的领先性;