logo of xiaohongshu

小红书大模型alignment评测实习

实习兼职大模型地点:北京 | 上海状态:招聘

任职要求


NLP/机器学习/深度学习等相关专业在校生,具备优秀的逻辑思维能力,对解决挑战性问题充满热情;
良好的 pytorch / python 技术栈,具备熟练的阅读代码和编写代码…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


深入理解  LLMs/MLLM 模型从数据、训练 到 评测的全流程,抽象认知能力维度,完善评测体系和构建业界前沿的Benchmark;
深入理解metric-based 评估方法,创新性的运用mulit-agent、self-critical/self-refinement、evaluator LLM 等手段打造scalable的自动化评测范式。
对模型进行全方面细致的评测,对模型能力进行深入归因分析,产出围绕模型的客观认知,为模型训练迭代提供重要的指导意见;
追踪NLP/多模态方向前沿进展,积极主动地学习和探索新的方法和技术。
包括英文材料
机器学习+
深度学习+
PyTorch+
还有更多 •••
相关职位

logo of sensetime
社招算法研究类

1. 主导多模态文档解析算法的研发与优化,聚焦于图像、表格、文本、公式等多模态信息的联合建模与理解; 2. 参与多模态大模型(视觉-语言-文档方向)的算法设计与训练,研究并提升多模态模型的文档解析能力; 3. 探索并落地 视觉-语言对齐(Vision-Language Alignment)、结构化解析(Layout/Chart/Table Parsing)等关键技术; 4. 构建从指令微调(SFT)→ 强化学习(RLVR)→ 多模态理解/生成评测的端到端算法管线,提升模型在文档解析、问题理解、表格问答等任务上的表现;

更新于 2025-11-07深圳
logo of kuaishou
社招D12518

1、预训练模型结构和训练任务优化,提升预训练模型学习世界知识的能力; 2、持续收集和清洗大规模预训练数据,并研究数据构成和学习顺序对大模型效果的影响; 3、参与预训练模型评测,包括评测流程建设和完善、评测方法设计和优化等; 4、参与大模型Alignment相关工作,包括: a.Alignment方法设计与研究,包括SFT和 RLHF等相关的算法研究; b.Alignment整体数据建设,包括数据构建、标注以及分析其对模型能力的影响; c.从下游调优的角度探索如何提升大模型的逻辑推理能力。

更新于 2025-06-11北京
logo of xiaohongshu
校招大模型

1、Post-Training Pipeline 设计与迭代:搭建并持续优化 SFT、RM、RLHF/RLAIF/ RLVF 等后训练流水线,支持多模态模型的高效迭代,让千亿级大模型在一次次“后训练”中真正变得聪明、智慧、安全; 2、可扩展监督与反馈系统:设计低成本人类 + AI 组合反馈机制,自动化完成偏好采集、对齐传递与数据质量评估,通过 Product-Research co-design 探索构建真实用户反馈的模型迭代机制; 3、通用推理与工具使用能力提升:构建跨模态强化学习环境和多样化奖励体系,帮助模型学会调用外部工具、提升模型利用文本-图像-语音跨模态信息进行复杂推理和问题解决能力; 4、长期记忆、个性化与终身学习:探索持久记忆与动态偏好建模,使模型能够跨会话记住用户偏好、持续学习而不遗忘核心能力; 5、安全评估与价值观对齐:搭建安全对齐机制、红队测试、越狱防御与自动化评测框架,量化模型幻觉、稳定性及价值观一致性,制定风险缓解策略,确保模型在开放场景中始终行为可控; 6、跨职能落地:与产品、设计、人文训练师及数据团队,把研究成果迅速推向真实场景,打造小红书下一代战略级 AI native 应用产品。

更新于 2025-09-06北京|上海
logo of xiaohongshu
社招1-3年大模型

1、Post-Training Pipeline 设计与迭代:搭建并持续优化 SFT、RM、RLHF / RLAIF / RLVF 等后训练流水线,支持多模态模型的高效迭代,让千亿级大模型在一次次“后训练”中真正变得聪明、智慧、安全 2、可扩展监督与反馈系统:设计低成本人类 + AI 组合反馈机制,自动化完成偏好采集、对齐传递与数据质量评估,通过 Product-Research co-design 探索构建真实用户反馈的模型迭代机制 3、通用推理与工具使用能力提升:构建跨模态强化学习环境和多样化奖励体系,帮助模型学会调用外部工具、提升模型利用文本-图像-语音跨模态信息进行复杂推理和问题解决能力 4、长期记忆、个性化与终身学习:探索持久记忆与动态偏好建模,使模型能够跨会话记住用户偏好、持续学习而不遗忘核心能力 5、安全评估与价值观对齐:搭建安全对齐机制、红队测试、越狱防御与自动化评测框架,量化模型幻觉、稳定性及价值观一致性,制定风险缓解策略,确保模型在开放场景中始终行为可控 6、跨职能落地:与产品、设计、人文训练师及数据团队,把研究成果迅速推向真实场景,打造小红书下一代战略级 AI native 应用产品

更新于 2025-10-23上海|北京|杭州