logo of xiaohongshu

小红书大模型数据运营专家(预训练方向)

社招全职1-3年模型标注地点:北京 | 上海状态:招聘

任职要求


1. 硕士及以上学历,计算机、计算语言学、数据科学信息检索NLP相关专业优先;有预训练语料处理、大规模数据工程经验者优先。 
2. 1年以上大模型预训练数据策略运营/产品经验,了解通用预训练数据处理流程。 
3. 具备优秀的数据分析能力,能通过Loss曲线、…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 预训练语料策略与体系搭建,负责大模型预训练阶段的数据策略,覆盖通用语料、垂直领域语料的全流程数据方案设计。 
2. 主导数据评估:建立清晰可量化的数据评估标准,提高评估效率;验证数据有效性,推动模型迭代; 
3. 数据驱动的模型迭代,深度理解预训练技术原理,通过数据分析定位模型能力短板,制定针对性数据补充策略,推动模型技术迭代升级。 
4. 前沿探索,保持对开源模型(如DeepSeek、Qwen等)及学术前沿的敏锐度,沉淀可复用的数据方法论,为团队提供中短期数据策略规划。 
5. 与算法、技术团队合作开发数据工具链,主动发现问题,发起项目,管理数据生产团队,把控数据质量与项目进度,推动跨团队高效协作,确保数据按时高质交付。 
6. 主导垂直领域语料体系的从0到1搭建(包括但不限于人文/学科/code等体系),能够定义各体系的质量标准,并设计可量化的评估指标。
包括英文材料
学历+
数据科学+
信息检索+
还有更多 •••
相关职位

logo of bytedance
社招A209514A

1、基于产品研发运营和业务需要,在内容垂类方向产出高质量文本数据,用于相关大模型训练; 2、参与大模型垂类数据标注标准的制定和优化,在既定标注标准下,完成相关数据的生产任务,总结抽象各类问题,反哺产品、研发、运营及业务,持续优化、细化标注标准,保障数据质量; 3、对数据生产方法进行探索,推动尝试,持续提升标注数据的准确性和生产效率。

更新于 2025-01-24北京
logo of tencent
社招IEG技术

1.负责面向游戏领域语音大模型的构建,包括预训练、指令微调、训练和推理加速、模型评测等; 2.探索大语音模型技术在游戏场景中的应用,为游戏创作、运营、交互体验等各环节提供更智能化的模型能力; 3.优化现有线上算法,包括对话TTS,千人千面语音,多语种TTS,音乐生成,歌声合成等方向研发工作,结合实际业务需求与数据,研发高效可靠的语音合成解决方案; 4.跟踪探索大语音模型的前沿技术与应用落地。

更新于 2025-06-05深圳
logo of bytedance
社招3年以上A08838

1、负责字节跳动互娱研发泛质量方向各业务场景下,LLM算法在需求设计、开发、测试、线上等软件工程领域的应用研究与算法落地工作,提升研发、测试的效率和质量,业务场景包括但不限于需求风险分级/智能单测/用例生成/UI生成/代码图谱/智能测试等; 2、跟踪LLM领域的最新研究成果,用以持续提升算法应用效果,研究方向包括但不限于语言LLM、多模态LLM,Prompt工程/RAG/Agents/SFT/RLHF等LLM相关前沿技术; 3、深度参与产品研发项目,和产品经理/业务研发/业务质量/运营等同学密切配合,提高项目整体效率和收益。

更新于 2024-08-21深圳
logo of bytedance
社招5年以上A159895

团队介绍:AI应用与创新团队,立足于抖音集团(抖音、直播、今日头条、番茄小说、财经等),致力于AI技术研究与业务创新赋能,包括:AI x 体验、 AI x 质量、AI x 安全等,助力业务品质与口碑的持续提升。 团队积极向上,工程师文化,技术氛围好,拥有算法(大模型、推荐、机器学习)、工程(后台、前端、大数据)、产品等多种职能岗位,地域覆盖深圳、北京、杭州、上海。 1、负责字节跳动抖音系产品多业务场景下的代码AI提效&提质相关研发工作,包括并不限于代码风险识别、代码数字孪生、智能单测生成等; 2、持续跟进LLM和软件工程的前沿技术,关注AI Coding、UI建站、PRD审计、多Agent协同等前沿技术进展,探索新技术在代码AI方向的应用; 3、深入分析业务和技术问题,和产品/研发/质量/运营等同学密切配合解决,提高项目整体效率和收益。

更新于 2025-11-26杭州