腾讯混元大语言模型后训练算法工程师（深圳/北京/上海）

社招全职3年以上混元-模型算法技术2026-06-30地点：深圳状态：招聘

扫码手机上打开

任职要求

1.计算机科学/软件工程/人工智能等相关专业硕士及以上学历；
2.深入理解 Transformer 架构及大语言模型训练原理，在 LLM Alignment、RLHF、Reward Modeling、**个性化大模型（Personalized LLM）、记忆机制（Memory/RAG）**等后训练领域之一有深入的研究和实践经验；
3.在用户画像建模、推荐系统与大模型结合、或超长上下文/长期记忆模型优化方面有丰富实战经验者优先；
4.具备扎实的算法基础和工程实现能力，熟练掌握 Pytho…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.负责大语言模型后训练（Post-Training）阶段的核心技术研发，构建和优化高质量的奖励系统（Reward System），通过Reward Modeling (RM) 和强化学习（RL）算法持续提升模型在复杂指令遵循、逻辑推理及价值观对齐方面的能力；
2.深入研究和优化 RLHF 等后训练算法，提升模型训练的稳定性和最终效果；
3.负责大模型个性化（Personalization）与长期记忆（Memory）机制的算法研发，构建精准的“千人千面”用户建模体系，探索模型如何理解、提取、记忆并动态适应不同用户的长期偏好，持续提升个性化交互体验；
4.负责后训练阶段的数据合成与管理，设计高效的数据飞轮机制，利用SFT、Self-Instruct等技术合成高质量训练数据，并负责建立从用户多维反馈（User Feedback）到模型迭代的闭环信号建模体系；
5.负责后训练模型的全维度评测与分析，制定科学的评价指标，跟进前沿技术动态，将最新研究成果快速转化为业务价值。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

Transformer+

大模型+

RLHF+

RAG+

推荐系统+

算法+

Python+

PyTorch+

还有更多 •••

登录查看完整学习资料

相关职位

混元大语言模型后训练算法工程师-垂域方向（北京/深圳/上海）

社招1年以上混元-模型算法技

1.专业领域智能体架构升级：负责面向金融、法务、医疗等专业领域的大模型智能体体系建设，利用 Agentic RAG 架构实现从基础检索问答到深度分析、专业研判与复杂任务执行的演进； 2.深度推理与规划：针对复杂专业任务指令，设计并实现基于推理类模型的任务拆解、多步规划（Planning）与流程编排策略，提升系统处理专业分析、跨文档归纳、决策支持等复杂问题的能力； 3.事实核查与结果可靠性：建立可靠的事实核查（Fact-checking）与结果校验机制，通过证据溯源、多源信息比对、结构化校验等手段，解决大模型在专业场景中的幻觉与失真问题，确保生成结果的真实性、严谨性与可追溯性； 4.前沿技术转化：探索推理类模型在专业领域 Agent 的落地，包括基于过程监督的思维链（CoT）优化、面向专业任务反馈的强化学习（RL）策略，以及搜索、数据分析、文件处理等多工具协同能力的持续演进。

更新于 2026-07-21北京

混元大语言模型后训练算法工程师-模型合版方向（北京/深圳）

社招1年以上混元-模型算法技

1.深度参与混元大模型后训练（包括 SFT、RL ）及模型合版的研发和相关算法策略研究，提升模型泛化性、能力边界和上限； 2.后训练策略和生产范式的研究，探索更加敏捷、普适和可扩展的训练范式，提升训练和生产效率； 3.相关前沿后训练技术方向探索，包括但不限于 Reasoning/Agentic 能力增强和 Scaling， RL/OPD 等收敛性和可扩展性研究； 4.将研究成果转化为实际的模型能力或生产效率，并撰写高水平技术报告或论文，提升技术影响力。

更新于 2026-04-16北京

混元-面向大语言模型能力提升的高价值训练数据挖掘与合成

校招青云计划-实习生

深圳

混元大模型数据策略负责人（北京/深圳）

社招3年以上AI产品

1.制定大模型后训练分Topic数据策略，搭建数据质量评估体系与数据生产标准，针对性优化数据短板，提升模型训练效果； 2.全面管理数据合成、数据质检、数据标注、数据运营小组，负责团队搭建、流程制定、任务统筹与绩效管控，保障数据高效高质量交付； 3.协同算法、研发团队，对齐模型训练需求，落地数据优化方案，跟进数据-模型效果联动优化，推动数据生产智能化升级； 4.把控数据合规与安全，统筹数据项目进度与目标达成，定期复盘数据质量与团队效能。

更新于 2026-06-22北京