
商汤强化学习系统方向 Research Engineer(实习)
任职要求
1. 计算机科学、人工智能、机器学习等相关专业在读硕士或博士(优秀本科生可考虑) 2. 具备扎实的深度学习基础,了解 LLM / VLM 等模型结构 3. 对分布式训练 / 推理 / 系统优化 有强烈兴趣,具备一定实践经验 4. 熟…
工作职责
1. 参与 大模型强化学习(RL)训练系统 的设计与优化,覆盖训练、推理、环境交互与调度等关键环节 2. 协助构建和优化 Agentic RL / 多 Agent 训练框架,提升系统效率、稳定性与可扩展性 3. 跟进并复现业界前沿的 RL 与 MLSys 研究工作,推动新方法在实际系统中的落地
Team Introduction: Through algorithm optimization and collaboration with business teams, the team conducts comprehensive quality and ecosystem governance for ByteDance's e-commerce products. This involves combating risks, violations, and low-quality issues, as well as constructing and optimizing a healthy e-commerce ecosystem. The team aims to maximize platform governance effectiveness while improving operational efficiency and reducing costs. Additionally, the team is dedicated to advancing cutting-edge AI technologies to drive business transformation and development through technical innovation, covering diverse fields including but not limited to NLP, CV, multimodal models, large models, graph algorithms, and sequence algorithms. 团队介绍: 平台治理算法团队,通过优化算法,和业务团队协作,对字节旗下的电商产品进行全方位的质量和生态的治理,既包括风险、违规和低质问题的打击,也包括健康电商生态的建设和优化,在最大程度的优化平台治理的效果的同时提升治理的工作效率,降低成本。另外一方面,平台治理算法团队致力于攻坚前沿的AI技术,以技术驱动推动业务的变革和发展,领域涉及广泛,包括但不限于NLP/CV/多模态/大模型/图算法/序列算法等。 课题目标和必要性: 电商智能审核业务比较复杂,随着审核技术的不断演进,各个领域面临着新的风险问题和对抗形式,这对大模型的应用提出了新的挑战。例如,在电商审核业务中,涉及审核PBR变更、长文本、长时序、多语言、少样本和AIGC生成对抗等问题时,现有的开源大模型表现往往不尽人意。因此,针对这些挑战,我们亟需研发专门针对电商智能审核的大模型,以提升其在电商治理中的有效性和适应性。特别的,针对电商业务特点,我们需要探索高质量的数据自动生成、高效的MOE Embedding、Auto-prompt生成、高质量 COT输出、大模型知识蒸馏等。此外,该模型应能够满足电商审核业务的需求,实现高准确率的自主决策和可解释性的COT生成,显著减少误判。针对动态变化的审核PBR变更,它能够通过RAG模块自动检索类似的审核案例,将复杂的审核PBR分解为简单的原子任务,自动拆分出驳回和豁免原子任务,并自动调用相应的Tools来解决这些任务,从而建立“知道拒绝并且知道为何拒绝”的业内领先智能审核系统。最终,大模型智能审核系统的审核效果需要接近或者超过人工审核,往全机审的路线上演进。 课题内容: 电商智能审核多模态大模型,主要研究点包括但不限于: 1、模态融合能力:提升文本、音频、图像、视频和直播等多模态的细粒度理解能力,实现高准确率的自主决策和可解释性的COT生成; 2、Few-Shot能力:探索电商多语言、长时序和少样本问题,增强Few-Shot和Zero-Shot能力,针对多变的业务规则具备复杂指令和Auto-prompt生成能力; 3、攻防对抗能力:研究AIGC图像视频的判别,增强审核大模型对隐晦、抽象的生成式内容的攻防对抗能力; 4、 Agent能力:具备调用RAG模块,使用Tools,和Auto-planning能力;提升大模型的动态推理和反思能力。 涉及的研究方向:大模型,多模态大模型,Few-Shot,AIGC判别,AIGC数据生成,强化学习,Agent。
Team Introduction: TikTok is a global short-video platform available in 150 countries and regions. Our mission is to inspire creativity and bring joy by helping users discover real and interesting moments that make life better. TikTok's global headquarters are in Los Angeles and Singapore, and we also have offices in New York City, London, Dublin, Paris, Berlin, Dubai, Jakarta, Seoul, and Tokyo. TikTok Research & Development (R&D) Team: The TikTok R&D team is dedicated to building and maintaining industry-leading products that drive the success of TikTok’s global business. By joining us, you'll work on core scenarios such as user growth, social features, live streaming, e-commerce consumer side, content creation, and content consumption, helping our products scale rapidly across global markets. You'll also face deep technical challenges in areas like service architecture and infrastructure engineering, ensuring our systems operate with high quality, efficiency, and security. Meanwhile, our team also provides comprehensive technical solutions across diverse business needs, continuously optimizing product metrics and improving user experience. Here, you'll collaborate with leading experts in exploring cutting-edge technologies and pushing the boundaries of what's possible. Every line of your code will serve hundreds of millions of users. Our team is professional and goal-oriented, with an egalitarian and easy-going collaborative environment. Research Project Introduction: With the advancement of hardware computing and the continuous breakthroughs of large models in CV/NLP/multimodal learning and even AGI fields, the large computing driven in recommendation scenarios are increasingly capable of capturing user preferences in a more comprehensive and nuanced way. This enables a deeper understanding of user needs and the discovery of latent interests, ultimately leading to enhanced user experiences. As a critical component of short video recommendation systems, the ranking module is responsible for fine-grained matching between users and content, selecting the videos users are most likely to be engaged with. In this context, the key research focus is how to best leverage large computing to maximize the model’s memory, generalization, and reasoning capabilities. 团队介绍: TikTok是一个覆盖150个国家和地区的国际短视频平台,我们希望通过TikTok发现真实、有趣的瞬间,让生活更美好。TikTok 在全球各地设有办公室,全球总部位于洛杉矶和新加坡,办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok研发团队,旨在实现TikTok业务的研发工作,搭建及维护业界领先的产品。加入我们,你能接触到包括用户增长、社交、直播、电商C端、内容创造、内容消费等核心业务场景,支持产品在全球赛道上高速发展;也能接触到包括服务架构、基础技术等方向上的技术挑战,保障业务持续高质量、高效率、且安全地为用户服务;同时还能为不同业务场景提供全面的技术解决方案,优化各项产品指标及用户体验。 在这里, 有大牛带队与大家一同不断探索前沿, 突破想象空间。 在这里,你的每一行代码都将服务亿万用户。在这里,团队专业且纯粹,合作氛围平等且轻松。 课题介绍: 随着硬件算力的发展以及大模型在CV/NLP/多模态以至于AGI领域的不断突破,推荐场景下的大算力驱动能够帮助模型更全面深刻理解用户偏好,进而更好地理解用户需求,挖掘用户潜在兴趣,进而带来更好地用户体验。排序模块作为整个短视频推荐系统中非常重要的一环,承载着用户与视频之间的细粒度匹配挖掘进而挑选出用户最感兴趣的视频。如何找到合适的路径来最大化大算力下模型的记忆、泛化、推理能力,成为了研究的重中之重。
我们正在寻找对大语言模型基模训练优化有浓厚兴趣和扎实经验的算法工程师,共同推动下一代智能体(Agent)和通用人工智能(AGI)技术的落地。 主要职责: ● 参与蚂蚁自研大语言模型各阶段训练,包括但不限于pretrain、SFT、 PPO、DPO、GRPO等 ● 针语DeepResearch类任务的轨迹优化等问题对优化奖励建模、偏好学习及策略微调流程; ● 探索大模型在复杂任务中的自主推理、工具调用与长期规划能力,结合 RL 提升智能体决策水平; ● 与数据、工程、产品团队紧密协作,将算法成果高效集成到线上大模型服务中; ● 跟踪并复现国际顶级会议在 LLM 领域的最新进展。