小红书大模型数据运营专家(预训练方向)
社招全职1-3年模型标注地点:北京 | 上海状态:招聘
任职要求
1. 硕士及以上学历,计算机、计算语言学、数据科学、信息检索、NLP相关专业优先;有预训练语料处理、大规模数据工程经验者优先。 2. 1年以上大模型预训练数据策略运营/产品经验,了解通用预训练数据处理流程。 3. 具备优秀的数据分析能力,能通过Loss曲线、…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1. 预训练语料策略与体系搭建,负责大模型预训练阶段的数据策略,覆盖通用语料、垂直领域语料的全流程数据方案设计。 2. 主导数据评估:建立清晰可量化的数据评估标准,提高评估效率;验证数据有效性,推动模型迭代; 3. 数据驱动的模型迭代,深度理解预训练技术原理,通过数据分析定位模型能力短板,制定针对性数据补充策略,推动模型技术迭代升级。 4. 前沿探索,保持对开源模型(如DeepSeek、Qwen等)及学术前沿的敏锐度,沉淀可复用的数据方法论,为团队提供中短期数据策略规划。 5. 与算法、技术团队合作开发数据工具链,主动发现问题,发起项目,管理数据生产团队,把控数据质量与项目进度,推动跨团队高效协作,确保数据按时高质交付。 6. 主导垂直领域语料体系的从0到1搭建(包括但不限于人文/学科/code等体系),能够定义各体系的质量标准,并设计可量化的评估指标。
包括英文材料
学历+
数据科学+
https://roadmap.sh/ai-data-scientist
Step by step roadmap guide to becoming an AI and Data Scientist
信息检索+
https://nlp.stanford.edu/IR-book/information-retrieval-book.html
Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008.
还有更多 •••
相关职位
社招IEG技术
1.负责面向游戏领域语音大模型的构建,包括预训练、指令微调、训练和推理加速、模型评测等; 2.探索大语音模型技术在游戏场景中的应用,为游戏创作、运营、交互体验等各环节提供更智能化的模型能力; 3.优化现有线上算法,包括对话TTS,千人千面语音,多语种TTS,音乐生成,歌声合成等方向研发工作,结合实际业务需求与数据,研发高效可靠的语音合成解决方案; 4.跟踪探索大语音模型的前沿技术与应用落地。
更新于 2025-06-05深圳
社招A175502
1、负责国际化短视频具体业务场景的搜索等算法工作,深度理解业务,攻克解决策略问题; 2、负责与产品运营团队对接协作,在本地生活等垂类、大模型应用等创新方向持续优化算法,支持业务目标达成; 3、负责前沿技术创新驱动与业务深度结合与应用,包括但不限于内容理解/信息抽取/多模态/大模型/文本生成/检索与相关性等领域; 4、负责搜索业务策略方向的中长期规划工作,包括技术演进、业务支撑、团队成长等方向。
更新于 2024-11-04北京
社招3年以上A08838
1、负责字节跳动互娱研发泛质量方向各业务场景下,LLM算法在需求设计、开发、测试、线上等软件工程领域的应用研究与算法落地工作,提升研发、测试的效率和质量,业务场景包括但不限于需求风险分级/智能单测/用例生成/UI生成/代码图谱/智能测试等; 2、跟踪LLM领域的最新研究成果,用以持续提升算法应用效果,研究方向包括但不限于语言LLM、多模态LLM,Prompt工程/RAG/Agents/SFT/RLHF等LLM相关前沿技术; 3、深度参与产品研发项目,和产品经理/业务研发/业务质量/运营等同学密切配合,提高项目整体效率和收益。
更新于 2024-08-21深圳