小红书Hi Lab-【Ace顶尖实习生】可扩展监督的 AI 对齐方法
实习兼职大模型地点:北京状态:招聘
任职要求
1、不限年级,本科及以上在读,计算机/人工智能/软件工程等相关专业优先; 2、优秀的代码能力、数据结构和基础算法功底,熟悉Python等至少一门编程语言; 3、熟悉大模型领域尤其是强化学习相关研究工作和算法,有大模型强化学习的研发基础; 4、在ICML/CVPR/NeurIPS/ACL等顶级期刊会议上发表论文者优先; 5、良好的沟通协作能力,责任心强,积极主动,能和团队一起探索新技术,推进技术进步。
工作职责
本课题的研究目标是开发面向大模型的可扩展监督对齐方法,通过探索更高效的人类反馈收集与利用机制、自动化偏好学习和评估框架,以及对齐传递技术,实现在有限人类监督资源下对大规模AI系统进行有效对齐。 项目将建立产品与研究的协同设计机制,确保对齐技术能够直接响应实际产品需求,通过从产品应用场景中收集真实用户反馈来迭代优化对齐方法,形成研究与产品互促共进的闭环,提升模型在安全性、价值观一致性和指令遵循能力等方面的表现。
包括英文材料
数据结构+
https://www.youtube.com/watch?v=8hly31xKli0
In this course you will learn about algorithms and data structures, two of the fundamental topics in computer science.
https://www.youtube.com/watch?v=B31LgI4Y4DQ
Learn about data structures in this comprehensive course. We will be implementing these data structures in C or C++.
https://www.youtube.com/watch?v=CBYHwZcbD-s
Data Structures and Algorithms full course tutorial java
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
强化学习+
https://cloud.google.com/discover/what-is-reinforcement-learning?hl=en
Reinforcement learning (RL) is a type of machine learning where an "agent" learns optimal behavior through interaction with its environment.
https://huggingface.co/learn/deep-rl-course/unit0/introduction
This course will teach you about Deep Reinforcement Learning from beginner to expert. It’s completely free and open-source!
https://www.kaggle.com/learn/intro-to-game-ai-and-reinforcement-learning
Build your own video game bots, using classic and cutting-edge algorithms.
ICML+
https://icml.cc/
CVPR+
https://cvpr.thecvf.com/
NeurIPS+
https://neurips.cc/
相关职位
实习大模型
本课题的研究目标是增强大模型的通用推理能力,通过研究多模态环境下的推理学习机制、真实世界任务的解决策略、基于强化学习的能力优化,以及构建多样性的奖励系统和训练环境。 研究将聚焦于如何使模型能够在跨领域和复杂场景中综合运用文本、图像、音频等多模态信息进行推理,有效处理现实世界的开放性问题,并通过精心设计的环境反馈机制持续优化模型的决策能力,从而提升AI系统在不同任务下的泛化能力和可靠性。
更新于 2025-08-22
实习大模型
本课题的研究目标是研发面向复杂场景的可拓展大规模强化学习系统。 包括不限于: 1、超大规模Reward System构建; 2、面向复杂场景构建“策略与反馈一体化”的递归自我增强方法,解决“AI超越人类”时的可拓展监督问题; 3、面向长程任务探索人机合作博弈的强化学习机制,实现模型在超长程复杂任务上的需求明确、自我规划与执行校验能力;让AI从被动完成指令的工具转变为主动推动任务进展的的协作者,实现目标对齐; 4、强化学习进程中的大模型可解释性、可理解性。
更新于 2025-08-22
实习大模型
本课题的研究目标是优化AI与人类的多模态交互体验,通过研发能够融合文本、视觉和语音等多种模态的自然交互机制,使AI系统能够通过理解图像内容、语音语调和情感等非文本信息增强交互效果。 研究将探索情境感知与个性化适应技术、多轮多模态交互中的意图理解与记忆保持能力,以及跨模态信息的整合与表达方式,使AI系统能够更好地理解用户通过不同感知通道传达的需求,提供视觉和语音层面的情感共鸣,并在长期多模态交互中不断适应用户偏好,实现更加流畅、高效且人性化的人机协作。
更新于 2025-08-22