小红书大模型后训练算法研发工程师(实习)
实习兼职机器学习平台地点:上海 | 北京状态:招聘
任职要求
任职资格 具备较好的编程能力和算法开发能力,熟悉常用的机器学习、深度学习算法 熟悉Llama-Factory、veRL、MS-Swift等框架,有相关项目经验更佳 了解分布式训练框架如DeepSpeed、Megatron-LM等 有较强的…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
模型训练:参与大型语言模型的训练实验,学习如何通过思维链推理提升模型在复杂任务上的表现 算法探索:学习探索前沿强化学习算法,协助团队进行奖励模型的构建和优化 Reasoning技术探索:参与模型监督、自我提升等训练优化探索 训练框架优化:学习使用LLM训练框架,参与协助优化训练流程,提升团队开发效率
包括英文材料
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
机器学习+
https://www.youtube.com/watch?v=0oyDqO8PjIg
Learn about machine learning and AI with this comprehensive 11-hour course from @LunarTech_ai.
https://www.youtube.com/watch?v=i_LwzRVP7bg
Learn Machine Learning in a way that is accessible to absolute beginners.
https://www.youtube.com/watch?v=NWONeJKn6kc
Learn the theory and practical application of machine learning concepts in this comprehensive course for beginners.
https://www.youtube.com/watch?v=PcbuKRNtCUc
Learn about all the most important concepts and terms related to machine learning and AI.
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
Llama+
https://github.com/LlamaFamily/Llama-Chinese
Llama中文社区,实时汇总最新Llama学习资料,构建最好的中文Llama大模型开源生态,完全开源可商用。
https://www.llama.com/docs/overview/
This guide provides information and resources to help you set up Llama including how to access the model, hosting, how-to and integration guides.
Swift+
[英文] A Swift Tour
https://docs.swift.org/swift-book/documentation/the-swift-programming-language/guidedtour/
Explore the features and syntax of Swift.
https://www.hackingwithswift.com/learn
Free Swift and iOS tutorials
https://www.youtube.com/watch?v=8Xg7E9shq0U
Learn the Swift programming language in this full tutorial for beginners.
还有更多 •••
相关职位
校招智能信息秋季20
1. 开展大语言模型、多模态生成/理解大模型复杂推理能力、可信性研究和奖励模型,包括但不限于自然语言处理、视觉理解、多模态生成与理解等; 2. 开展多模态大模型后训练阶段的强化学习算法研发迭代,包括:基于人类、AI、环境反馈的强化学习算法的优化升级,覆盖规则遵循、复杂推理等多个任务的多目标强化学习训练算法研发和调优,设计并实施实验; 3. 关注和学习最新前沿研究,参与学术讨论和技术交流,撰写研究报告、技术文档或论文,鼓励在国际顶级期刊或会议上发表研究成果。
更新于 2025-08-13北京|杭州
实习蚂蚁星- Pla
作为蚂蚁集团的核心大模型部门,我们专注大语言模型的技术攻坚与创新突破,致力于推动通用人工智能(AGI)技术的实质性进展。团队聚焦LLM后训练方向,包括模型对齐、高阶推理、安全可控等,持续完善智能系统的认知深度与可靠性。目前部门拥有数万张显卡资源,并且仍在持续加大投入,为探索模型能力边界提供坚实的保障。在追求AGI的道路上,我们始终秉持蚂蚁集团的技术务实基因,通过扎实的底层创新推动智能技术的产业落地。 1. 研发万亿参数LLM基模架构:大语言模型(LLM)后训练(post-train)全流程优化,设计高效分布式训练方案,进行十万亿token级别的超大规模训练,包括但不限于通用能力提升、安全对齐等方向; 2. 奥赛级别的LLM各项能力建设,迈向真正的AGI:前沿的高效强化学习算法设计,实现并应用SFT/RLHF/DPO/PPO/GRPO等算法,研发训推一体的大规模强化学习训练框架,探索多目标奖励模型、过程监督等前沿技术,提升模型在指令遵循、逻辑推理、多任务泛化等方面的性能; 3. 扩大工业与学术影响力:开源LLM模型及核心技术,发表顶会论文,贡献核心开源项目。
北京|上海|杭州