小红书【hi lab】Posttrain全模态算法工程师-语音
任职要求
1、有极强的问题分析和解决能力,开放心态,善于学习;
2、有语音领域相关经验,在某一方向有过较深入的研究和一线经验;对大模型后训练技术有一定认知;
如果你渴望让 AI 真正跨越“听、看、说、想”的边界,并对打造下一代 AI native 应用感兴趣,欢迎投递简历,让我们一起定义多元智能的新高度!
工作职责
你将参与到小红书下一代 AI native 应用的构建中,通过 Omni Model 技术改变现有 AI 以文字交互为主的形态,负责全模态大模型(Omni Model)的后训练工作,主导音频与文本、视觉协同对齐的整体方案设计与落地,包括并不限于: 1、制定并迭代音频-文本-视觉对齐数据体系,与数据团队合作构建高质量、多样化、有审美的跨模态数据,并提升端到端模型的语音理解和表达能力。 2、基于 SOTA omni 基座模型,在语音、视觉、文本长序列混合后训练中,通过多种训练方法保证语音能力充分发挥的同时,又不削弱模型智商与图文表现。 3、构建语音质量与语义一致性的 Reward 模型;通过 RLHF/RLAIF/Self-Rewarding 以及 Session level RL 技术提升模型在实时对话中的语义、情绪理解能力,语音表达的自然度、逻辑一致性。 4、与工程、产品团队协同,把实验成果快速迁移到线上服务,并探索基于线上用户的语音交互反馈实现在线 RL 迭代提升。
利用强化学习方法对多模态大模型进行对齐: 解决优化现有多模态大模型 RLHF 中的训练效果、稳定性、Reward Hacking 等问题; 探索 RL 阶段 computaiton scaling 对模型能力提升的方法; 研究 Multi-Agent、Long-term Objective、Scalable Oversight 等方向下基于强化学习的对齐方法; 基于前沿方法对幻觉、推理、工具使用、安全等场景问题进行针对性优化,提升大模型的应用价值。
利用多种方法获得效果、 Robustness、Uncertainty校准都足够好的 Reward Model 1、RM标注策略优化,包括但不限于迭代标注策略、AI标注策略等,探究数据和模型性能的关系; 2、研发fine-grained reward modeling,对幻觉、推理、数学等场景进行针对性优化; 3、探索 PMP、Reference、Tool-Augmented、RM+CoT等对现有方法的改进,探索language-based RM以提高可解释性及鲁棒性; 4、研究Self-Rewarding、Self-Crituqing、Scalable Oversight等方向下的对齐技术,探索LLM booststrap的技术路径。
【训练推理框架研发】 大模型hi lab AI Infra团队专注于大语言模型领域的前沿技术研究和落地,提供高性能、高可靠、可扩展的机器学习系统、丰富的异构计算资源和极致的端到端的机器学习服务体验,为公司提供核心技术能力和服务。 1、负责机器学习框架的研究与开发,服务于公司各个产品; 2、高效部署,优化NLP/多模态大模型核心业务模型; 【轻量化】 机器学习系统团队需要将传统或者新型的轻量化算法和工程有机结合起来进行加速,提高大语言模型训练或者推理性能的同时,通过算法手段尽可能降低效果损失。候选人将在以下几个方向进行深入探索和落地: 1、量化方向:负责但不限于大语言模型的低精度训练(FP8)、推理(W8A8KV8等)、低精度优化器(量化梯度、优化器状态、参数等) 2、高性能模型结构:大语言模型Finetune或者其他阶段的LoRA系列(熟悉各种变种),训练阶段的MQA/GQA系列等 3、稀疏化方向:大语言模型剪枝、稀疏、蒸馏、Sparse Attention等 4、新型方向:Medusa、超长文本、Speculative Sampling等
我们寻找热爱生活、钟情于艺术与科技交融的你,加入小红书AI性格设计师team,在追求 AI 模型在技术上的有用性基础上赋予 AI 温暖与诗意,注入灵魂,让 AI 能够为世界和人类带来美好。 1、AI 的文学与艺术表达训练:精细调校 AI 的语言风格,深入分析并优化 AI 的表达中的修辞手法、叙事结构和情感节奏,确保 AI 的语言兼具艺术美感与逻辑严谨 2、提升 AI 的多元智能水平:基于广博的人文视角和跨文化理解,萃取历史、哲学及心理学中的精华思想,塑造 AI 的底层世界观、价值观、性格和行为准则,训练 AI 在艺术审美、哲学思考、同理心等方面的能力 3、构建生动的 human-AI 交互体验:关注 human-AI 交互中的每一个细节,优化 AI 在不同情境下的回答与主动表达,让它从冷冰冰的工具转变为懂得倾听和理解你心情的温柔伙伴,用美学和智慧激发用户内心共鸣