字节跳动强化学习算法实习生（角色化模型方向）-豆包大模型

实习兼职A196006A2024-08-19地点：北京状态：招聘

扫码手机上打开

任职要求

1、本科及以上学历在读，人工智能、计算机、自动化、数学相关专业优先；
2、优秀的代码能力、数据结构和基础算法功底，熟练C/C++或Python，ACM/ICPC、NOI/IOI、Top Coder、Kaggle等比赛获奖者优先；
3、熟悉NLP、CV相关的算法和技术，熟悉…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

日常实习：面向全体在校生，为符合岗位要求的同学提供为期3个月及以上的项目实践机会。
团队介绍：字节跳动豆包大模型团队成立于2023年，致力于开发业界最先进的AI 大模型技术，成为世界一流的研究团队，为科技和社会发展作出贡献。豆包大模型团队在AI领域拥有长期愿景与决心，研究方向涵盖NLP、CV、语音等，在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源，在相关领域持续投入，已推出自研通用大模型，提供多模态能力，下游支持豆包、扣子、即梦等50+业务，并通过火山引擎开放给企业客户。目前，豆包APP已成为中国市场用户量最大的AIGC应用。

1、RL驱动的角色模型训练：优化角色类大模型的行为策略、长期记忆管理和多模态交互能力，突破角色行为一致性、情感表达合理性等技术瓶颈；
2、极致性能优化：超大规模模型的分布式训练优化，提升角色类模型的推理效率与资源利用率，指令微调、偏好对齐、数据增强等技术的场景化创新；
3、业务场景落地：支持豆包、猫箱等产品的角色生成需求，覆盖对话、创作、教育等场景，探索角色模型在智能硬件、元宇宙等领域的沉浸式交互能力；
4、前沿探索：研究人格化模型在情感计算、社会常识推理等方向的突破，定义AI角色从「功能执行」到「人格化陪伴」的技术范式。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

数据结构+

算法+

C+

还有更多 •••

登录查看完整学习资料

相关职位

强化学习算法实习生（角色化模型方向）-豆包大模型（Top Seed Intern）

实习A27917

Top Seed人才计划-豆包大模型研究实习生专项：面向 2025 年 9 月及以后毕业的博士及本硕在读同学，加入我们，你可以自主决定研究课题，与正式员工享受同等权限和资源，和优秀的研究员一起，向智能上限发起挑战。团队介绍：字节跳动豆包大模型团队（Seed）成立于 2023 年，致力于寻找通用智能的新方法，追求智能上限，并探索新的交互。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等，在中国、新加坡、美国等地设有实验室和岗位。豆包大模型团队在 AI 领域拥有长期愿景与决心，坚持深耕基础，期望成为世界一流的 AI 研究团队，为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型及前沿的多模态能力，支持豆包、扣子、即梦等超过 50 个应用场景。 1、RL驱动的角色模型训练：优化角色类大模型的行为策略、长期记忆管理和多模态交互能力，突破角色行为一致性、情感表达合理性等技术瓶颈； 2、极致性能优化：超大规模模型的分布式训练优化，提升角色类模型的推理效率与资源利用率，指令微调、偏好对齐、数据增强等技术的场景化创新； 3、业务场景落地：支持豆包、猫箱等产品的角色生成需求，覆盖对话、创作、教育等场景，探索角色模型在智能硬件、元宇宙等领域的沉浸式交互能力； 4、前沿探索：研究人格化模型在情感计算、社会常识推理等方向的突破，定义AI角色从「功能执行」到「人格化陪伴」的技术范式。

更新于 2025-03-19北京

强化学习算法实习生（角色化模型方向）-豆包大模型（Top Seed Intern）

实习A01714

更新于 2025-03-14上海

多模态大模型算法实习生（视觉评测方向）-抖音研发

实习A66776

ByteIntern：面向2027届毕业生（2026年9月-2027年8月期间毕业），为符合岗位要求的同学提供转正机会。团队介绍：抖音研发部门负责多款大型产品的研发，包括但不限于抖音、西瓜视频、汽水音乐。加入我们，你将有机会参与亿级用户场景的开发与架构工作，使用前沿的技术助力业务一起不断成长。 1、参与构建新一代多模态大模型评测体系，覆盖3D生成、动态3D（4D）、数字人、世界模型等AIGC方向，驱动模型效果持续优化与业务规模增长； 2、基于计算机视觉（CV）、音频理解、多模态大模型（MLLM）、多模态Agent、强化学习（RLVR）等技术，构建Score Model、Reward Model等自动化评测能力，将人类感知与偏好有效建模，并融入评测闭环，提升生成模型评估与优化效率； 3、参与构建行业领先的多模态评测体系，融合元评估等方法，持续迭代评测标准与数据集构建范式，提升评测结果的可靠性、细粒度与可解释性，系统刻画模型能力边界； 4、作为算法角色，与工程和质量团队协作，将评测能力落地到实际业务场景，支撑模型训练、调优与上线决策。

更新于 2026-04-28北京

【北斗实习】大模型应用算法工程师-【多场景Agent】

实习核心本地商业-业

【课题说明】以大模型对话技术为核心，探索前沿技术问题。研究方向包括角色扮演、个性化对话、记忆管理，拟人化，数字人等，主要业务场景包括运营，招聘，销售，审核等。目标是构建覆盖多个场景的Agent系统，实现“技术驱动业务范式”的升级转变。【建议研究方向】 1. 大模型个性化（Personalized LLM）：通过角色扮演、用户行为数据挖掘与建模、上下文理解等方法，分析用户情感状态，提升模型的个性化回复能力。 2. 面向语音交互的拟人化技术（Voice Agent）：优化大模型在语音对话场景的效果，提升大模型的拟人化水平，探索下一代端到端语音对话大模型的技术实现。 3. 记忆管理与增强（Memory）：通过优化模型长上下文能力、设计记忆抽取与管理模块，提升系统的记忆能力。 4. 基于LLM的RL（LLM-based RL）：通过强化学习，提升模型规划、决策、推理等能力。我们将提供充足的计算资源和良好的工作自由度，目标是产出有影响力的工作，解决业务实践中的问题。

更新于 2025-05-27北京