logo of xiaohongshu

小红书基础模型算法实习生 - LLM Post-training

实习兼职大模型地点:北京 | 上海状态:招聘

任职要求


我们希望你具备:
背景: 计算机、数学等相关专业硕士/博士在读;深入理解 Transformer 架构及大模型训练全流程。
专业深耕: 在 Search(搜索)、Code(代码生成/工程)、tool-use、alignment 或 RL(强化学习) 领域有深厚积累。
工程能力: 熟练使用 PyTorch,…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


岗位定位:
本岗位侧重于提升大语言模型的“核心大脑”能力。你将通过先进的 Post-training 技术,让模型在Reasoning、Agentic以及人类意图对齐上达到业界顶尖水平,通过提升AI智能水平的上限,支撑小红书所有业务场景,包括且不限于搜索、广告、推荐、电商、客服及智能发布等核心场景。

你的工作内容
大规模对齐与强化学习: 研发并优化 SFT、RL(如GRPO 等)算法,构建高精度的 Reward Model,解决模型在复杂指令下的对齐问题。
推理模型(Reasoning)优化: 探索长链推理(CoT)、强化学习驱动的自反思与自进化机制,提升模型在的 System 2 思维能力。
Agentic RL 与Agency: 研发面向 Search Agent、Code Agent 和 Tool-use Agent 的强化学习方案,提升模型在开放环境中的任务拆解、工具调用及闭环执行能力。
合成数据与模型进化: 探索高质量合成数据的生成与过滤技术,实现模型能力的自我循环与持续进化。
包括英文材料
Transformer+
大模型+
强化学习+
PyTorch+
还有更多 •••
相关职位

logo of aliyun
实习阿里云研究型实习

专注于LLM post-training和agent相关算法研究,具体职责包括: 1、探索LLM可解释性 + 模型增量CPT/RL算法,提升语言模型在专业领域上的能力; 2、探索LLM可解释性 + 低比特量化算法,降低模型training/inference阶段计算成本; 3、探索agent 增强微调算法,提升模型在专业领域上端到端解决复杂任务的能力; 4、将相关算法研究成果发表在国际顶级会议上(ICLR/NeurIPS/ICML/ACL); 5、将相关算法研究成果应用于模型低比特量化、海外大模型业务中,显著提升阿里云通义千问模型服务效率和沙特等国家主权大模型线上效果。

更新于 2025-04-23杭州
logo of alibaba
实习淘天集团研究型实

1. Agent方向:直接参与到导购Agent的算法研发工作,包含无障碍导购Agent、搜索导购Agent两个Agent项目并结合技术创新与实际业务落地,产出高质量论文、专利与开源成果。包括相关项目的高质量数据构建,支撑复杂任务建模与行为学习,运用大模型SFT、RL等Post-training训练方法并探索 Online RL 等前沿方法,设计并落地“过程监督 + 结果监督”联合训练范式,融合MCTS、ToT、Reflection等推理方法,等等; 2. LLM应用方向:探索基于LLM的Query理解大模型,通过天猫的数据微调大模型生成ID表征向量,在搜索和推荐算法各模块进行深度的探索和应用。包括但不限于语义相关性、类目预测、召回排序等。探索生成式搜索技术(如Query扩展、结果摘要生成),助力搜索从“信息呈现”向“决策辅助”升级; 3. 结合业务需求,设计和扩展LLM的应用场景范围及规模,提高模型微调后再垂直领域的应用及专家模式的架构尝试; 4. 跟踪LLM与Agent领域的国际前沿技术动态,开展前沿算法的研究工作,推动技术创新在业务场景中的落地应用,重点突破复杂推理、GUI Agent、AI搜索等方向的技术沉淀和业务创新。

更新于 2026-01-12杭州
logo of bytedance
实习A104784

团队介绍:字节跳动Stone-Cross Platform团队成立于2023年,致力于开发业界前沿的应用框架,构建LLM驱动的前沿系统和基础设施,提升开发者和用户体验。 课题介绍: 随着AI大模型研究的不断发展,文本生成、多模态理解以及Agent规划能力有了巨大的提升和突破,以豆包多模态交互、OpenAI Operator、Deepseek-R1推理模型为典型案例,应用的构建以及交互方式迎来了巨大的机遇和变革。我们希望结合LLM/VLM模型的多模态感知、深度思考和AI Agent等能力,深入探索大模型在AI应用构建效率和为智能交互体验上的创新。 研究方向: 本课题旨在利用大模型技术开发智能应用交互框架,研究内容包括:围绕大模型设计应用框架,利用大模型提升应用构建效率,如UI理解及代码生成等;使用大模型来理解应用的多模态Context及用户意图,进行意图规划及推理执行,完成用户交互;改进编程语言的设计,使其容易被大语言模型理解,验证,实现编程语言的自动生成,和编程语言之间的相互转译,从而加速新编程语言生态的构建;通过该课题的研究,我们希望实现更加智能、便捷和高效的应用框架,推动AI驱动的应用交互的普及与发展。 1、参与大模型在应用框架中的算法研究,探索和优化模型Post-training、AI Agent等技术; 2、研究和开发智能UI交互技术,提升界面的智能化和个性化水平; 3、设计跨平台、高性能、大模型便于理解和生成的编程语言; 4、开发和优化意图规划和推理算法,提升应用的理解和响应能力; 5、探索多模态数据融合技术,解决复杂场景下的精准推理与决策问题; 6、整理研究数据,撰写技术报告和发表研究论文。

更新于 2025-02-27深圳
logo of bytedance
实习A130018

ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:字节跳动搜索团队主要负责抖音、国际化短视频、今日头条、西瓜视频等产品以及电商、生活服务等业务的搜索算法创新和架构研发工作。我们使用前沿的机器学习技术进行端到端建模并不断创新突破,同时专注于分布式系统、机器学习系统的构建和性能优化,从内存、Disk等优化到索引压缩、召回、排序等算法的探索,充分给同学们提供成长自我的机会。 主要工作方向包括: 1、探索前沿的NLP技术:从基础的分词、NER,文本、多模态预训练,到业务上的Query分析、基础相关性等,全链路应用深度学习模型,每个细节都充满挑战; 2、跨模态匹配技术:在搜索中应用CV+NLP深度学习技术,实现多模态视频搜索强大的语义理解和检索能力; 3、大规模流式机器学习技术:应用大规模机器学习,解决搜索中的推荐问题,让搜索更加个性化更加懂你; 4、千亿级数据规模的架构:从大规模离线计算,分布式系统的性能、调度优化,到构建高可用、高吞吐和低延迟的在线服务的方方面面都有深入研究和创新; 5、推荐技术:基于超大规模机器学习技术,构建业界领先的搜索推荐系统,对搜索推荐技术进行探索和创新。 1、参与搜索引擎(策略、模型)研发工作,支持抖音/今日头条/电商/番茄小说/红果短剧等具有数亿用户的产品,致力于为数亿用户提供数千亿精准搜索结果,打造极致的搜索体验; 2、探索前沿技术,探索大模型等创新技术在AI搜索场景的落地,参与搜索引擎、搜索大模型的改进,包括而不限于: 1)NLP、大模型:构建大规模高质量数据(数据建设、数据抓取与解析、数据合成等)、分词、NER,文本、多模态预训练、Query分析、基础相关性等,全链路结合应用机器学习/深度学习模型,探索搜索引擎与大模型、LLM、MLLM、多模态、机器学习、强化学习等前沿技术的结合,实现搜索引擎全链路革新并进行极致的系统优化,探索提升AI搜索引擎的能力,包含而不限于相关性、权威性、时效性、意图理解能力等;探索新的自然语言处理算法、信息检索技术、LLM适性索引、LLM相关性、生成式召回、排序大模型等,提高搜索引擎的准确性和智能化程度; 2)召回与排序:借助语义理解、个性化预估、机制设计等技术,解决超大规模的视频、商品、直播、POI等搜索业务下的召回、排序、重混排模型; 3)多模态、跨模态匹配技术:基于海量网页图文、抖音视频数据的大规模多模态预训练和视频分析技术,提升视觉搜索的使用体验;在搜索中结合CV+NLP深度学习技术,实现多模态、视频搜索、强大的语义理解和检索能力; 4)页面分析和摘要:从千亿视频/网页中提取最有价值的信息,进行结构化字段提取、智能摘要生成、转码等工作来优化搜索体验; 5)链接分析:从万亿链接中找出最有价值的网页,优化链接质量、索引质量、垃圾作弊识别、调度策略等。

更新于 2025-01-10杭州