logo of xiaohongshu

小红书【hi lab】Posttrain全模态算法工程师-语音

社招全职3-5年大模型地点:北京 | 上海状态:招聘

任职要求


1、有极强的问题分析和解决能力,开放心态,善于学习;
2、有语音领域相关经验,在某一方向有过较深入的研究和一线经验;对大模型后训练技术有一定认知;
…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


你将参与到小红书下一代 AI native 应用的构建中,通过 Omni Model 技术改变现有 AI 以文字交互为主的形态,负责全模态大模型(Omni Model)的后训练工作,主导音频与文本、视觉协同对齐的整体方案设计与落地,包括并不限于:
1、制定并迭代音频-文本-视觉对齐数据体系,与数据团队合作构建高质量、多样化、有审美的跨模态数据,并提升端到端模型的语音理解和表达能力。
2、基于 SOTA omni 基座模型,在语音、视觉、文本长序列混合后训练中,通过多种训练方法保证语音能力充分发挥的同时,又不削弱模型智商与图文表现。
3、构建语音质量与语义一致性的 Reward 模型;通过 RLHF/RLAIF/Self-Rewarding 以及 Session level RL  技术提升模型在实时对话中的语义、情绪理解能力,语音表达的自然度、逻辑一致性。
4、与工程、产品团队协同,把实验成果快速迁移到线上服务,并探索基于线上用户的语音交互反馈实现在线 RL 迭代提升。
包括英文材料
大模型+
相关职位

logo of xiaohongshu
社招3-5年大模型

我们相信,通向更高阶智能的路径不止于更大的 LLM。 Post-Training 正在成为模型能力跃迁的关键阶段:从“学会语言”走向“理解世界、优化行为、持续进化”。该岗位将深度参与 多模态、强化学习、自进化 Agent 系统 等前沿方向,探索超越纯预训练范式的新能力边界,构建可持续学习、可记忆、可进化的智能系统。 1. Post-Training 核心研究与系统构建 设计并实现面向 推理能力、策略优化和长期表现 的后训练方法 探索 Reasoning RL Scaling、RLAIF for Fuzzy Task、Self-Play、Scalable Oversight 等在大模型中的新用法 将 Post-Training 视为 系统级优化问题,而非单次调参或 reward hacking 2. 强化学习与持续进化机制 设计基于试错和反馈的训练闭环(例如,Natural Language FeedBack),使模型具备自我修正和能力生长 探索 RL 在 边缘能力、长尾任务、工具使用和复杂决策 中的作用 研究长期学习(Lifelong Learning)、稳定性、遗忘控制等关键问题 3. 多模态与“世界建模” 参与多模态模型(尤其是视频、时序感知)的 Post-Training 研究 探索从“语言建模”走向“世界建模”的训练目标与评估方式 研究感知、行动与决策的联合优化,而非简单模态拼接 4. Agent 与自进化系统 构建“可训练的 Agent 系统”,而不仅是工具调用的外壳 设计 Agent 的记忆、学习、反思与策略更新机制 将 Agent 视为一个 持续演化的产品级智能体 5. 新范式与新架构探索 对现有 Attention、NTP 等范式保持批判性思考,例如探索全新的 探索新架构、新目标函数、新训练范式在 Post-Training 中的可能性 参与从模型 → 推理过程 → 自学习环境(System-level Scaling)的演进

更新于 2026-02-05北京|上海|杭州
logo of xiaohongshu
社招1-3年大模型

利用强化学习方法对多模态大模型进行对齐: 解决优化现有多模态大模型 RLHF 中的训练效果、稳定性、Reward Hacking 等问题; 探索 RL 阶段 computaiton scaling 对模型能力提升的方法; 研究 Multi-Agent、Long-term Objective、Scalable Oversight 等方向下基于强化学习的对齐方法; 基于前沿方法对幻觉、推理、工具使用、安全等场景问题进行针对性优化,提升大模型的应用价值。

更新于 2025-09-26北京|上海|杭州
logo of xiaohongshu
社招1-3年大模型

1.利用强化学习方法对多模态大模型进行对齐: 2.解决优化现有多模态大模型 RLHF 中的训练效果、稳定性、Reward Hacking 等问题; 3.探索 RL 阶段 computaiton scaling 对模型能力提升的方法; 4.研究 Multi-Agent、Long-term Objective、Scalable Oversight 等方向下基于强化学习的对齐方法; 5.基于前沿方法对幻觉、推理、工具使用、安全等场景问题进行针对性优化,提升大模型的应用价值。

更新于 2026-01-14北京|上海
logo of netease
实习网易有道

1. 参与有道业务的UI设计工作,为新功能、新产品提供创意及设计方案; 2. 参与产品讨论,与产品经理、工程师协作,从视觉设计和用户体验的角度提出建议与解决方案; 3. 全面跟进产研流程,与产品、研发、测试团队紧密协作,跟进设计方案落地,保证设计方案高度还原。 4. 续关注设计趋势,主动挖掘视觉/体验问题,提出改进建议,提升产品设计品质。

更新于 2025-06-18北京