腾讯混元大模型标注算法研究员(北京)
任职要求
1.计算机或者相关专业硕士或者以上学历,2年以上推荐/广告/CV/NLP/RL相关工作经验,有大模型调优化应用、评测经历者优先; 2.扎实的机器学习基础,能够熟练应用常用的机器学习模型解决实际的业务问题,有主流深度学习模型的项目(CV/NLP/推荐/广告/RL等均可)实践落地经验优先; 3.良好的逻辑思维能力, 数据分析能力,善于分析和解决问题; 4.在在NearlPS,ICML、KDD、AAAI,IJCAI等机器学习领域会议或者期刊有第一作者发表过文章的优先。
工作职责
1.与数据标注团队紧密合作,深入了解业务需求,为数据标注工作提供专业的技术支持与指导。与算法研发团队、产品团队等协同工作,参与项目的全生命周期,从需求分析到产品上线,保障数据标注相关算法与功能的顺利实现; 2.针对文本、图像、音频、视频等多类型数据,设计并实现高效的自动 / 半自动标注算法,大幅提升数据标注效率与准确性。2)研究并应用前沿机器学习算法,如半监督学习、主动学习算法,降低数据标注工作量,提升标注数据质量; 3.标注模型持续迭代与优化:对模型进行持续调优,以适应不同项目的数据特点与标注需求,提高模型在数据标注任务上的性能表现。分析、评估模型/工具效果,提出针对性的改进策略,推动标注模型/工具的迭代升级。
1.负责LLM及AI搜索能力的模型/策略效果迭代,设计满足用户体验的理想态回复标准,并驱动数据生产和模型训练,达成体验/能力优化目标; 2.设计LLM及AI搜索的模型效果评估体系,进行系统化的效果反馈,质量监控,打造数据飞轮; 3.与上下游模型算法、工程技术、标注交付等团队紧密合作,完成策略迭代、效果评测,共同推进基础模型效果提升和产品化目标达成; 4.负责设计和制定完善的搜索策略评估体系,通过科学的评估方式定位问题并推动优化。
1.业务需求洞察与转化:; 2.深入对接业务线(如算法团队、司内业务部门),理解大模型在应用场景中的业务痛点,输出产品需求文档并推动优先级共识; 3.深入分析行业痛点(如客服、内容生成、3D建模等),输出定制化解决方案,推动产品适配性优化; 4.平台能力构建与体验提升:; 5.主导设计大模型全生命周期管理功能,涵盖数据标注、模型训练、效果评测、部优化等环节的核心模块,构建大模型全生命周期管理闭环,重点突破高并发训练、分布式推理、多模态模型兼容等能力; 6.设计面向开发者的低门槛工具链(如可视化Prompt编排、一键式模型微调),提升平台DAU/留存率; 7.端到端功能交付与落地; 8.独立负责功能从PRD设计到上线的全流程管理,协调研发、测试、算法团队资源,确保技术方案与业务目标的强对齐; 9.建立关键指标(如模型迭代周期、资源利用率、用户满意度),通过数据验证功能价值; 10.主导交付后的用户培训、反馈收集及问题闭环; 11.跨团队协同与项目管理; 12.推动业务方、工程团队、算法团队三方协作; 13.推动太极在腾讯生态产品(如微信、腾讯文档、腾讯会议)中的深度合作与能力共建。
1.数据特征算法:负责海量文本&多模态数据(图像,视频,音频,3D)的内容理解(如分类标签体系、embedding表征、Caption生成等),质量检测(低质识别检测、优质美学评价等),去重/聚类分析,数据合成等算法; 2.数据pipeline建设:负责数据采集、筛选清洗、标注与质量评估pipeline的建设。与模型业务团队紧密配合,充分分析挖掘数据资源,建立自动化数据处理流程与机制,支持模型持续迭代; 3.数据实验分析:对模型训练数据进行详细分析,建立科学数据实验机制,识别样本不足、质量问题、配比不均衡等潜在问题,驱动数据优化提升数据覆盖、质量、多样性需求,最终带来大模型生成效果的持续提升。