logo of antgroup

蚂蚁金服蚂蚁集团-大模型算法专家-Post training-杭州

社招全职3年以上技术类-算法地点:杭州状态:招聘

任职要求


1、在后训练微调领域拥有丰富的项目经验,熟恶DPO、PPO、GRPO、KTO、ReFT等算法原理,具备扎实的数学基础,熟悉线性代数、概率统计、优化算法等。
2、对Megatron-LM、DeepSpeed等分布式框架及LLaMA-Factory、ms-swift等大模型微调工具库有一定的了解或相关开发经验。
3、具备优秀的算法研发能力…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、参与设计并实现 代码生成(可视化方向)、Function call、RAG等方向的大模型后训练算法。
2、结合业务数据和场景,设计Post training的高质量数据构建方案(含数据洞察、数据合成、数据质量优化等)提升模型的应用效果。
3、与工程以及产运团队协作,参与或负责大语言模型、多模态大模型等业务场景的后训练端到端效果提升及落地;
4、密切关注业界 LLM 微调算法和数据提质领域的前沿论文,并整合新技术和算法到训练引擎中,提升框架的领先性。
包括英文材料
算法+
Megatron+
DeepSpeed+
还有更多 •••
相关职位

logo of alibaba
社招3年以上技术类-算法

关于我们 我们是阿里巴巴国际数字商业集团-阿里巴巴国际站-Accio算法团队。阿里巴巴国际站是全球最大的跨境B2B数字化贸易平台。 我们团队一直追求极致的技术创新 (每年都有多篇顶会paper),从Bert到T5,多次推动业务跨越式发展。去年自研LLM完整技术栈,成功驱动生意助手大规模商业化落地。今年正在全力打造全球首个B2B AI Sourcing Agent,自研Agent框架和全新AI Search系统,目前已成功全球发布,迈向更广阔的未来。 职责描述: 1. 负责跨境电商垂直多语言多模态大模型的研发,包括SFT到RLHF的LLM全链路post-training技术建设。 2. 负责AI Native专项能力建设,包括但不限于NL2SQL, RAG System, Agent System, Function Call, Workflow Reasoning等。 3. 负责跨境电商AI创新业务落地,包括但不限于用最前沿的RAG/Agent技术,重构B2B Sourcing的全新交互体验。 4. 负责LLM的前沿技术探索,持续迭代自研模型能力,支撑AI Native产品落地。

更新于 2026-01-09杭州
logo of alibaba
社招1年以上技术类-算法

Accio是阿里巴巴国际数字商业集团阿里国际站内部孵化的一款战略级AI原生应用产品,也是全球首个B2B AI Search Agent,通过持续探索Agent、LLM、VLM、RL、Memory、Reasoning、AI Search等前沿技术,自研基座、Agent系统以及AI Search系统,实现全球B2B跨境贸易跨越式发展。 1、参与开发和优化新一代多模态原生AI搜索系统,包括但不限于多模态模型训练、跨模态生成与检索、生成式AI搜、多模态Agent等; 2、参与搜索引擎研发,全链路提升搜索效果,包括但不限于多模态理解、query分析、召回、相关性、排序等关键模块的算法设计与优化; 3、参与买家Agent全链路开发与优化,跟踪前沿多模态大模型技术,探索推动开源SOTA模型的产品化落地。

更新于 2026-04-07杭州
logo of netease
实习网易云音乐

【职位前言】 DeepSeek-R1的发布给世界带来了不小的震撼,更令人敬佩的是,无论是赶超OpenAI o1的模型效果,还是节省百万美元成本的工程优化,这背后的原理与实现都在官方发布的技术报告和开源项目中一一公开。 大语言模型的前沿研究将不再只是少数巨头才玩得起的项目,更多的研究者可以入局这场对人工智能探索的新征程。 如果您对模型背后的工程优化充满好奇(FP8混合精度训练、分布式专家并行等),想深入了解并上手实践,但又没有合适的计算资源与明确的优化目标,又对模型 post-training(GRPO强化学习、模型蒸馏等等)跃跃欲试,但又没有明确的应用场景和数据资源—— 那不妨来网易云音乐,和我们搭上这趟时代的列车,一起拆解硬核技术,聚焦于音乐业务中的搜索、推荐、广告场景,探索大模型的应用落地与高效部署。 【职位描述】 1、参与大模型在后训练和推理工程中的性能优化,结合底层硬件特性从混合精度训练、矩阵计算加速、注意力机制计算优化、GPU分布式并行等方面提升工程效率; 2、通过强化学习、模型蒸馏等方式,构建音乐领域具有 CoT 推理能力的大语言模型,应用于搜索、推荐、广告等业务场景。 【我们拥有】 1、音乐行业内海量用户独一无二的数据资源; 2、贴近实际的业务场景,让 idea 落地并发挥价值; 3、可观的计算资源,性能上还有极大的空间待与你一同挖掘; 4、鼓励创新探索、倡导悉心钻研、宽松融洽多元的团队氛围; 5、成果转换的支持,合作完成项目及论文,助力未来的职业发展。

更新于 2025-06-17杭州
logo of antgroup
社招3年以上技术类-算法

1. 负责研发大语言模型强化学习算法,提升大模型在强化学习阶段的训练效率,以及提升大模型在数学、代码等自然科学领域的推理能力 2. 负责研发奖励和评价模型,包括细粒度的过程监督和奖励建模,覆盖复杂推理、指令遵循等各种任务 3. 参与后训练和推理阶段的Scaling Law研究,包括奖励模型训练、强化学习训练、推理阶段的Scaling Law

更新于 2025-12-23北京|上海|杭州