logo of quark

夸克算法工程师 - 大模型 Post Training

校招全职智能信息秋季2026届应届生招聘地点:北京 | 杭州状态:招聘

任职要求


我们希望你
1. 具备出色的编程与工程实现能力,精通至少一门主流开发语言(如 C/C++JavaPython 等);
2. 在自然语言处理计算机视觉、多模态建模或通用人工智能等方向具有良好学术基础与实践能力,熟悉深度学习主流框架(如 PyTorch、TensorFlow);
3. 对大模型训练、多模态理解、Post-training 方法等有一…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


夸克大模型团队致力于自主构建面向未来通用人工智能(AGI)的大模型技术能力。依托领先的工程基础与业务生态,已实现千亿参数规模模型的高效训练与部署,在通用搜索、医疗健康、教育学习、智能创作、职场办公等核心领域形成深度应用。  
我们诚邀具备扎实算法功底与研究潜力的优秀应届毕业生加入,围绕大模型的前沿技术展开系统性探索与工程落地,在这里您将深度参与: 
1. 参与研发基座 LLM、多模态大模型等下一代人工智能 Post-trianing 技术,探索 SFT 数据构建、高效稳定训练方法、多源模型融合、longCoT 训练等前沿技术方法,打造业界一流的大模型效果;
2. 参与构建多模态任务(如图文问答、视频对话)的协同训练策略,提升模型跨模态一致性;
3. 和算法、工程、评估团队协作,参与构建统一的数据处理、训练与评测方法;
4. 负责跟踪和研究大模型前沿技术,探索大模型技术在 AI 搜索、Agent 等公司业务场景中的大规模应用;
包括英文材料
C+
C+++
Java+
Python+
NLP+
OpenCV+
深度学习+
还有更多 •••
相关职位

logo of tongyi
社招1年以上技术类-算法

在蕴含丰富世界知识的预训练模型的基础上,我们利用 Post-train 打造出我们想要的能够服务人类的 AI 模型。我们通过 RL、SFT、RFT 等技术,探索大模型潜能的同时,也在塑造大模型的能力与性格。本着为人类服务的目标,我们的 Post-train 将会重点探索其推理能力,实现深度思考,并致力于提升其 Agent 能力,让大模型服务于真实世界的任务。 工作职责: 1. 探索更多可 scalable 的 verifier 信号,并通过 RL 提升模型的各项能力。 2. 提升 reward model 在创作、人类偏好、指令遵循等各专项上的能力,减少reward hacking和bias。 3. 研究 reasoning path压缩和外推,实现更高质量的推理思考。 4. 将LLM的推理能力和Agent以及其他模态相结合,探索统一模态的reasoning。

更新于 2025-06-05北京|杭州|上海
logo of tongyi
社招1年以上技术类-算法

在蕴含丰富世界知识的预训练模型的基础上,我们利用 Post-train 打造出我们想要的能够服务人类的 AI 模型。我们通过 RL、SFT、RFT 等技术,探索大模型潜能的同时,也在塑造大模型的能力与性格。本着为人类服务的目标,我们的 Post-train 将会重点探索其推理能力,实现深度思考,并致力于提升其 Agent 能力,让大模型服务于真实世界的任务。 工作职责: 1. 探索更多可 scalable 的 verifier 信号,并通过 RL 提升模型的各项能力。 2. 提升 reward model 在创作、人类偏好、指令遵循等各专项上的能力,减少reward hacking和bias。 3. 研究 reasoning path压缩和外推,实现更高质量的推理思考。 4. 将LLM的推理能力和Agent以及其他模态相结合,探索统一模态的reasoning。

更新于 2025-11-25北京|杭州|上海
logo of tongyi
社招1年以上技术类-算法

在蕴含丰富世界知识的预训练模型的基础上,我们利用 Post-train 打造出我们想要的能够服务人类的 AI 模型。我们通过 RL、SFT、RFT 等技术,探索大模型潜能的同时,也在塑造大模型的能力与性格。本着为人类服务的目标,我们的 Post-train 将会重点探索其推理能力,实现深度思考,并致力于提升其 Agent 能力,让大模型服务于真实世界的任务。 工作职责: 1. 探索更多可 scalable 的 verifier 信号,并通过 RL 提升模型的各项能力。 2. 提升 reward model 在创作、人类偏好、指令遵循等各专项上的能力,减少reward hacking和bias。 3. 研究 reasoning path压缩和外推,实现更高质量的推理思考。 4. 将LLM的推理能力和Agent以及其他模态相结合,探索统一模态的reasoning。

更新于 2025-11-28北京|杭州|上海
logo of tencent
社招2年以上元宝技术

1.负责语音大模型post-training (SFT和RL),针对业务需求进行优化,提升模型的特定能力(如共情能力、知识准确性); 2.负责后训练数据挖掘,分析,清洗和构建,建立数据驱动优化闭环,持续提升模型能力; 3.负责业务侧相关评估方法的开发,研发能够反映产品真实体感的评测体系标准与自动化评测技术,指导后训练优化方向; 4.探索多模态大模型的前沿技术,如端到端语音对话,情感交互等,并落地到业务产品。

更新于 2025-09-04深圳