logo of pinduoduo

拼多多大模型Agentic后训练工程师(代码智能体方向)

社招全职技术类地点:上海状态:招聘

任职要求


1.计算机、人工智能、软件工程等相关专业,本科及以上学历。
2.具备扎实的深度学习基础,精通 Transformer 架构及大规模语言模型训练与优化原理。
3.熟练掌握 Python,编码与工程落地能力强;熟悉主流大模型训练框架(如 Megatron、Verl 等)。
4.自驱力强,学习能力出色,能够快速跟进并复现学术界与工业界最新后训练方法,完成系统化工程应用。
5.具备敏锐的数据分析与…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.负责 Code Agent 大模型的全流程后训练,包括 Mid-Training、SFT、RL 等阶段的设计、实现与迭代,持续突破模型的代码能力边界。
2.构建并优化各训练阶段所需的高质量数据集,涵盖数据清洗、合成、增强与质量评估,为模型优化提供数据底座。
3.深入分析模型行为与输出分布,诊断典型失败模式,通过数据与训练策略的针对性调整,提升代码生成的正确性、可读性与安全性。
4.跟踪并探索前沿 Code Agent 技术,推动研究成果的工程化落地。
5.与产品和工程团队紧密协作,将后训练能力集成到智能编程助理、自动化代码生成系统及任务执行 Agent 等产品中。
包括英文材料
学历+
深度学习+
Transformer+
Python+
大模型+
Megatron+
还有更多 •••
相关职位

logo of tongyi
校招通义2026届秋

通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备多模态、多语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从亿级到万亿级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 Coder团队致力于构建能够执行、扩展并自我进化的自主系统,通过构建超智能的coding agent/digital agent,扩展数字世界,为迈向真实世界的智能奠定基础。 工作职责: 1. 负责通用模型 Qwen 的代码能力和代码专有模型 Qwen-Coder 的构建。 (1)包括但不限于数据收集、预训练、后训练(强化学习)、评测等方向上的探索。 (2)通过Large-scale Pre-training 和 Large-scaleRL来提升Code Reasoning能力,在专家级编程竞赛超越人类,并构建 Coding Agent 来解决真实世界软件开发任务; 2. 负责Computer-Use Agent (GUI-Agent)的建设,以最直观的方式—鼠标、键盘、编码等操作来代替人类执行数字世界任务。 (1)通过Scaling海量数字世界数据结合大规模合成数据,来提升Computer-Use Agent的Grouding能力。 (2)通过Long Horizon的方式进行强化训练,结合可扩展的多模态环境反馈来提升CU Agent的Reasoning的能力。

更新于 2025-08-22北京|杭州|上海
logo of dewu
社招技术类

1、深入理解电商平台业务场景,负责自然语言处理(NLP)、语义分析、人机对话模型等核心算法的研究与实现; 2、基于电商业务场景数据,重点负责大模型后训练算法,以及策略优化等相关工作; 3、负责搭建和优化Agentic系统,挑战将前沿Agent架构和算法应用于大规模电商核心业务,打开业务增长空间。 4、跟踪行业前沿技术,探索Agentic RL、DeepSearch、高效大模型等技术,参与新一代基座模型的调优与创新。

更新于 2026-01-08上海|北京
logo of alibaba
社招1年以上技术类-算法

Accio是阿里巴巴国际数字商业集团阿里国际站内部孵化的一款战略级AI原生应用产品,也是全球首个B2B AI Agent,通过持续探索Agent、LLM、VLM、RL、Memory、Reasoning、AI Search等前沿技术,自研基座、Agent系统以及AI Search系统,实现B2B AI Agent跨越式发展。 1、负责Agent算法架构设计与效果优化,包括但不限于模型优化(Agentic Post-training/Agentic Infra等)自主规划(Planning)、多步推理(Reasoning)、工具/skill调用(Tool Use)、长短期记忆(Memory)及 RAG 增强; 2、复杂任务动态编排:设计并实现高扩展性的Multi-Agent协作框架(如Agent Swarm/Agent Team),支持将模糊的宏观目标递归拆解为原子任务; 3、Long-horizon运行设计:构建结合"工作记忆+全局知识库"的多级存储系统,解决Agent长期运行中的信息遗忘问题,建立跨Agent的共享上下文能力,设计Agent持续进化框架; 4、构建端到端的Agent评测体系,构建生产力场景benchmark,推动Agent在business场景落地; 5、探索落地前沿Agent技术,包含而不限于:Agentic Model、Agentic Benchmark、Agentic RL、Pro-active Agent、Function Calling、Tool-Use、Multi-Step Reasoning、Agent Harness、Agentic Post-Training; 6、探索Agent Architectures/Structures的上限,在Agent应用研究中最大程度释放模型的能力,研究Self-Evolving AI System,实现Self-Improving Agents。

更新于 2026-04-07杭州
logo of aligenie
社招1年以上技术类-算法

Accio是阿里巴巴国际数字商业集团阿里国际站内部孵化的一款战略级AI原生应用产品,也是全球首个B2B AI Agent,通过持续探索Agent、LLM、VLM、RL、Memory、Reasoning、AI Search等前沿技术,自研基座、Agent系统以及AI Search系统,实现B2B AI Agent跨越式发展。 1、负责Agent算法架构设计与效果优化,包括但不限于模型优化(Agentic Post-training/Agentic Infra等)自主规划(Planning)、多步推理(Reasoning)、工具/skill调用(Tool Use)、长短期记忆(Memory)及 RAG 增强; 2、复杂任务动态编排:设计并实现高扩展性的Multi-Agent协作框架(如Agent Swarm/Agent Team),支持将模糊的宏观目标递归拆解为原子任务; 3、Long-horizon运行设计:构建结合"工作记忆+全局知识库"的多级存储系统,解决Agent长期运行中的信息遗忘问题,建立跨Agent的共享上下文能力,设计Agent持续进化框架; 4、构建端到端的Agent评测体系,构建生产力场景benchmark,推动Agent在business场景落地; 5、探索落地前沿Agent技术,包含而不限于:Agentic Model、Agentic Benchmark、Agentic RL、Pro-active Agent、Function Calling、Tool-Use、Multi-Step Reasoning、Agent Harness、Agentic Post-Training; 6、探索Agent Architectures/Structures的上限,在Agent应用研究中最大程度释放模型的能力,研究Self-Evolving AI System,实现Self-Improving Agents。

更新于 2026-04-07杭州