小红书【hi lab】大模型预训练算法工程师

社招全职1-3年大模型2025-09-15地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

1、对大模型方向充满兴趣，且能充分意识到数据对于模型能力的重要价值和数据侧的巨大空间
2、很好的数据感觉，对人类文明积累下来的…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、建立文本和多模态数据源、数据格式解析(网页，PDF等)、数据策略、模型能力、下游任务的全链路归因能力
2、建立并持续完善的数据质量、多样性、重复度、覆盖率等评估体系，分析和量化每个维度的影响
3、针对模型核心能力进行重点强化，包括不限于数学、推理、Code、Agent、ICL、OCR等
4、探索如何使用更少数据量，达到同样模型能力的策略，持续提升per token的通用能力训练效果
5、探索基于各类策略的高质量数据生成方式，定向优化特定模型能力和为长期Scaling Law解决数据缺失问题

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

大模型+

还有更多 •••

登录查看完整学习资料

相关职位

大模型推理服务架构工程师-hi lab

社招机器学习平台

职位描述团队专注于大模型机器学习系统领域的前沿技术研究和落地，提供高性能、高可靠、可扩展的机器学习系统、丰富的异构计算资源和极致的端到端的机器学习服务体验，为公司提供核心技术能力和服务。 1、负责大模型推理服务的研究与开发，服务于公司各个产品； 2、负责端到端解决大模型预训练、微调对齐阶段的工程、算法问题，为结果负责

更新于 2025-08-22北京|上海|广州

Hi Lab-【Ace顶尖实习生】探索大模型预训练更加高效的scaling效率优化

校招大模型

本课题的研究目标是研发更高效的预训练scaling效率，通过数据策略、模型结构设计(Dense, MoE, Long Context等)、初始化&优化器策略、学习范式的创新，深度理解模型的学习机制和评估方法，能够更精准的预测模型行为，并持续提升模型预训练从算力&数据到智能的转化效率。

更新于 2025-12-03北京|上海|杭州

Hi lab-数据采集

社招3-5年大模型

负责大模型预训练数据的全局采集策略设计，制定高效、可持续的数据获取路径，覆盖多语言、多领域、多模态数据源。构建数据需求量化体系，针对模型能力目标（如推理、代码、知识等）规划数据采集优先级与规模，确保token总量与质量满足训练需求。设计数据源发现、去重、质量评估与增量更新的自动化流程，平衡开源数据、合作数据与自采数据的应用。探索低成本、高合规性的数据获取方案，应对版权、隐私等风险，支撑团队长期数据需求。

更新于 2025-10-29北京|上海|广州

【REDstar】Hi Lab-大语言模型基础技术研究员

校招大模型

文本大模型团队的主要负责小红书大语言模型的端到端全链路自研。主要研究方向包括: 1、持续探索大语言模型在不同阶段的高效scaling策略； 2、预训练的关键技术探索: 包括从数据策略(筛选，配比，合成，学习效率的提升)、优化技术、可解释性，到下一代模型结构的设计、long context建模、学习范式探索等； 3、通用alignment技术探索: 包括大规模RL的探索，持续提升大模型在通用能力、reasoning、长文本、agent、各方向中长尾知识等多个方向的综合能力，支撑更广泛的应用场景； 4、跟下游的多模态同学一起探索端到端全模态大模型的设计和高效scaling策略；团队有充足的GPU计算资源，同时跟整个技术社区也有密切合作，开源开放。

更新于 2025-10-18北京|上海