夸克智能信息-多模态后训练算法专家-杭州/上海/北京

社招全职1年以上技术类-算法2025-08-27地点：北京 | 杭州 | 上海状态：招聘

扫码手机上打开

任职要求

1、计算机科学、人工智能、机器学习或相关领域的硕士或博士学位；
2、在多模态、计算机视觉、NLP、AIGC、计算机图形学、机器学习等一个或多个领域有较深入的研究；
3、有多模态大模型后训练相关经验，benchmark构造经验。
4、能够积极创新， 乐于面对挑战， 负责敬业，优秀的团队合作精神，一起探索新技术，推进技术进步。
加分项：
1、具…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 探索研究多模态理解、视频理解等方向的前沿技术；
2. 关注多模态、全模态大模型的后训练相关技术，研判RL在多模态理解上的潜力；

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

机器学习+

学历+

OpenCV+

NLP+

大模型+

算法+

还有更多 •••

登录查看完整学习资料

相关职位

智能对话大模型算法实习生-电商智能对话-筋斗云人才计划（北京/上海/杭州/珠海）

实习A222718

团队介绍：Data-电商-智能对话团队，致力于打造业界领先的大模型对话系统。团队服务的日活用户超过数亿，应用场景覆盖抖音电商全链路，包括平台客服、平台商服、商家客服、达人客服，以及创新的智能导购等核心业务场景，通过持续的技术创新和优化，成功构建了一套完整的智能对话解决方案，为电商业务带来了显著的效率提升和用户体验改善。课题介绍：背景：电商智能客服正逐渐成为业务增长和用户体验优化的重要方向，基于大型语言模型（LLM）的智能客服系统解决电商场景中的核心挑战，由LLM完成一次用户进线的完整接待过程，包括诉求澄清、方案协商、方案执行等阶段，实现电商业务的智能化升级——让用户享受更智能高效的客服服务。研究方向：本课题聚焦于LLM 后训练与智能客服。构建基于 LLM 的多智能体（Multi-Agent）框架，通过规划、回复、工具三类Agent的协作，实现从问题分析、方案执行到结果反馈的全流程智能客服。核心目标是确保客服对话的准确性、合规性与流畅度，避免模型生成幻觉或违背平台政策。同时，围绕电商客服的复杂任务，构建 Benchmark数据集，优化SOP遵循、多轮交互、用户满意度等指标。此外，研究高效数据利用方法，探索低标注数据条件下的LLM训练，并开发自动生成高质量训练数据的系统，以降低人工标注成本，提高智能客服的服务质量与效率。 1、数据挖掘：负责数据集的构建与维护，利用数据飞轮机制不断优化数据质量和丰富度，进行深度的数据挖掘，沉淀高价值信息； 2、大模型训练：针对业务需求进行大模型的继续训练（CT）、有监督微调（SFT）、偏好学习，以及多模态模型训练，提升模型在特定场景下的表现； 3、提示词工程：与业务专家合作，构建和优化结构化的提示词，充分挖掘和利用大模型的能力，高效、精准解决实际问题； 4、信息检索：开发和优化Query理解、召回、相关性排序等技术，提升信息检索的效率和准确性，提升RAG的效果； 5、智能体技术：利用领先的智能体框架，增强大模型的推理、对话和反思能力，解决复杂业务问题，提升用户体验； 6、大模型评测：制定和实施大模型的评估方案，结合人工评估和自动化评估手段，确保模型性能的可靠性和稳定性； 7、应用落地：定义业务问题，设定任务标准和目标，不断优化模型和系统，以达到最佳的业务效果和用户满意度。

更新于 2025-03-04上海

智能信息-多模态生成算法专家/高级专家-杭州/北京

社招3年以上技术类-算法

1. 探索研究多模态生成大模型的设计与开发，探究高效生成、生成理解统一、多模态理解、强化学习/RLHF后训练和高效数据管线设计等方向； 2. 参与研发多模态生成大模型开发等下一代人工智能核心技术，参与大规模生成基础模型预训练与后训练开发。 3. 负责跟踪和研究多模态生成大模型前沿技术调研、落地、对业务进行优化。

更新于 2025-08-22北京|杭州

智能信息-大模型训练优化专家-强化学习

社招1年以上

1、负责千卡以上规模文本及多模态大模型强化学习训练框架建设；为Quark、通义等过亿用户，提供大模型后训练能力，持续优化模型效果； 2、负责调研和实现业界先进的强化学习方法，并探索算法工程结合的训练方法创新设计，实现模型性能和训练效率的双提升； 3、负责训练效率极致优化，通过前沿技术的调研、引入，以及机制创新，实现业界领先的训练吞吐能力。

更新于 2025-11-30北京|杭州|广州

【北斗】基座大模型算法研究员（数据与训练/后训练）

校招核心本地商业-基

数据与训练方向： 1.大模型数据体系建设：构建多语言和多模态的数据处理流程和实验链路，优化数据的筛选与配比策略，探索动态数据调整、多阶段训练和课程学习等方法提升数据质量和多样性，优化大模型的训练效果。 2.合成数据探索：探索大规模合成数据方法，应用于复杂任务、推理、代码和多模态等场景。制定合成数据在预训练、强化学习等不同训练阶段的应用策略，并深入研究数据扩展规模定律、数据多样性和模型坍塌等基础问题，推动数据驱动的性能突破。 3.多模态学习与推理：探索多模态预训练的新范式，突破模态融合瓶颈。具体包括实现多模态能力的早期融合、理解与生成的统一建模，研究多模态扩展定律以指导数据与训练方案，扩展超长上下文机制以支持全模态场景等。同时，面向复杂的多模态推理与交互场景，探索多模态强化学习、多模态奖励模型、推理阶段扩展（test-time scaling）以及全模态链式思维（CoT）等方法，提升模型处理复杂任务和全模态交互的能力。 4.高效模型架构设计：设计高效的大模型架构以提升训练和推理效率。探索 MoE（混合专家）、稀疏注意力、线性注意力等高效模型结构，以及模型编辑与合并等技术，研发能够显著提升推理速度和资源利用率的新型模型架构。 5.推理效率与性能优化：推动算法与系统的协同优化，实现模型性能与效率的最大化平衡。基于对硬件计算潜力的深度挖掘，开发高效的模型推理方案和算法，包括模型压缩、剪枝、量化、稀疏化等，降低模型应用部署成本。后训练方向： 1.后训练数据与流程建设，从指令数据生产、合成、进化、配比等方面提升数据质量，优化指令微调、强化学习、奖励模型等训练pipeline，提升模型综合能力； 2.后训练关键能力建设，包括但不限于优化模型创意生成、多语言、逻辑推理、复杂指令遵循、代码生成、工具调用等能力，提升模型可控性和安全性，拓展模型能力边界； 3.面向准确性、多模信息、最优路径等方向，探索奖励模型的新范式，构建统一模型学习环境，实现模型的价值对齐和能力对齐； 4.面向推理规划能力、多智能体系统、模型自进化等方向，探索下一代强化学习算法，持续提升大模型的智能水平和在真实复杂场景效果； 5.前沿探索：动态推理计算优化（Test-time Compute Optimization）、多智能体协同进化架构、大规模强化学习系统优化等。

更新于 2025-05-23北京|上海