米哈游LLM算法工程师(评测方向)
任职要求
1. 计算机科学、人工智能或相关领域的硕士及以上学历 2. 对大语言模型的工作原理有较深入的理解,掌握基础的模型部署方法 3. 对大语言模型评测体系有较深入的理解,并能构建评估方法以改进模型性能 4. 熟练掌握python,能够深入大型机器学习代码库进行调试 5. 有良好的中英文阅读和鉴赏 加分项 1. 在ACM/ICPC,NOI/IOI,TopCoder等编程大赛上有获奖 2. 在模型评估方向有NeurIPS/ICML/ACL/EMNLP顶级论文发表,积极追踪大模型方向前沿进展和应用 3. 参与过有影响力的LLM应用项目,有交互界面设计、数据标注相关经历 4. 具备良好的文学素养,对游戏、影视、小说等人文和娱乐内容有浓厚兴趣
工作职责
1. 对大语言模型评估结果做深入数据分析,理解不同评估指标与用户体验、需求之间的关联,对模型训练迭代提供指导意见 2. 研发可靠的大语言模型评估管线,制定针对角色扮演、创意写作等能力的自动或人工评测准则与方法,构建对应的评测数据集 3. 开发大语言模型评测框架与平台,支持大规模快速的分布式评测,可视化支持各种类型的评测,快速适应不断变化的需求
1. 对大语言模型评估结果做深入数据分析,理解不同评估指标与用户体验、需求之间的关联,对模型训练迭代提供指导意见 2. 研发可靠的大语言模型评估管线,制定针对角色扮演、创意写作等能力的自动或人工评测准则与方法,构建对应的评测数据集 3. 开发大语言模型评测框架与平台,支持大规模快速的分布式评测,可视化支持各种类型的评测,快速适应不断变化的需求
我们是致力于推动智能化服务技术革新的创新团队,专注于为全行业提供高效、智能的解决方案。我们的业务涵盖智能客服、智能培训、智能质检等多个领域。 我们团队正在建设“评测数字员工”,旨在通过标准化、智能化的评测手段,推动AI智能服务的全面升级,并打造行业领先和有代表性的评测体系与benchmark。 如果你对AI、NLP、数据挖掘、评测等领域充满热情,并希望在一个充满挑战与机遇的环境中快速成长,那么加入我们,一起定义未来智能化服务的新标准! 【职位描述】 1. 评测体系设计:参与设计并优化智能化服务(包括智能客服、智能培训、智能质检等)的评测体系,涵盖对话质量、操作质量、培训效果、拟人化、用户满意等核心指标。 2. 评测开发与优化: ○ 研发并优化基于LLM-as-Judge的评测能力,包括但不限于对话生成质量评估、意图识别准确率、多轮对话一致性等。 ○ 探索agent在复杂任务中的性能评测方法,如任务规划、SOP遵循、RAG、多模态交互等。 3. Red-team:针对agent系统的弱点进行攻击,找到系统潜在的风险,防患于未然。 4. Benchmark构建:构建并维护智能化服务领域的代表性benchmark,确保评测标准的科学性与可扩展性。 5. 数据驱动决策:通过数据分析与挖掘,识别智能化服务系统的性能瓶颈,并提出改进方案。 6. 跨业务协作:与多个智能体研发团队、产品团队紧密合作,确保评测体系与业务需求的高度匹配,推动产品的持续优化。 7. 技术前沿探索:跟踪智能化服务领域的最新技术动态,探索并落地创新评测方法。
背景介绍: 我们正在构建一个深度理解淘宝研发上下文的领域大模型,目标是打造一个具备“架构师级”洞察力的AI模型,从根本上提升研发效率与质量。如果你渴望在一个真实、复杂的场景中,将LLM的能力推向新的高度,并亲手塑造下一代软件研发的未来,我们期待你的加入! 1. 领域模型训练: 负责淘宝研发领域大模型的核心算法,主导持续预训练(Continual Pre-training)、指令微调(SFT)和对齐(RLHF/DPO)等训练流程; 2. 知识注入与推理: 设计并实践创新的数据方案,将代码、文档、配置等异构研发知识高效注入模型;通过多任务学习、FIM等范式,增强模型对软件工程的深度理解与复杂推理能力; 3. 能力评估与迭代: 建立科学的评测体系,精准评估模型在代码溯源、影响分析、故障排查等高阶任务上的能力;分析bad case,驱动数据和算法的闭环优化。