快手大模型评测算法工程师
任职要求
1、本科及以上学历,计算机、人工智能、大数据、统计等相关专业优先; 2、算法基础扎实,熟悉 Transformer、Bert、DiT、CLIP、CNN、GAN、VAE、Diffusion Models等AI模型基本原理; 3、具备良好的数据化思维,能够基于数据分析结果给出分析结论,熟悉ACC、AUC、F1、recall等基本的模型评估指标计算方式; 4、熟悉常见的模型架构,能够训练或微调常见CV、NLP、LLM、MLLM模型; 5、良好的沟通能力和团队协作精神,严谨的工作态度与高质量意识,对大模型技术有热情和探索精神; 6、具备良好的视野,善于学习新的知识、阅读论文、动手能力强、有进取心。 加分项: 1、有顶会论文、国家或国际奖项、专利获得者、算法竞赛获奖者优先考虑; 2、实际参与过AIGC、大模型相关的项目研发优先; 3、了解分布式系统、调度、容器、代码管理相关领域技术,熟悉Kubernetes、Docker、Yarn等原理与应用; 4、熟悉常见模型评测数据集、评测方法,包括但不限于C-Eval、CMMU、MT-bench、MINT、SuperCLUE; 5、熟悉Bert、CLIP、BLIP、ResNet、VGG、RCNN、Yolo等常见算法原理及训练实操。
工作职责
1、以算法视角,参与快手大模型(包括不限于LLM、T2I、T2V、I2V、MLLM模型)评测工作和评测体系建设; 2、参与评测相关自动化评测工具开发及维护,最大化提高评测效率; 3、以算法手段,对基座大模型和AI Native应用进行分阶段、端到端评测; 4、参与构建评测Agent工具链、对战平台、模型竞技场、模型效果判别模型、应用数据飞轮等工具链建设。
参与语言大模型、视觉大模型、语音大模型、多模态大模型的应用评测与研究工作,具体工作内容包括但不限于: - 从大模型应用视角出发,建设科学、全面的大模型评测体系,制定并实施评测标准与评测方案。 - 对数据进行处理、理解,建设高质量数据pipeline,并基于科学、全面的评估体系构建数据集,系统评估模型能力,产出评测报告,指引大模型相应能力的提升。 - 利用大模型辅助、替代人工标注,准确、高效的进行半自动化、自动化的模型评测,降低评测成本、提升评测效率。 - 利用大模型进行自动化的Red Team,系统的发现9.11和9.8谁大答错等典型模型能力短板,以及模型发生涉政涉黄涉及未成年人等不当回复的风险。 - 对模型评测中发现的模型能力短板、模型能力变化、不符合认知的异常进行研究分析,产出研究分析结论,指引大模型相应能力的提升。具体研究项包括不限于数据、模型结构、训练方式对各类模型能力的影响,以数据相关研究为例,包括不限于研究不同数据类型、不同数据配比、不同数据加入时机、不同数据规模等变量对各类模型能力的影响。 - 紧密关注大模型方向的前沿技术进展,积极主动地学习和探索新数据分析、模型训练以及模型评测方法。 - 紧密关注大模型应用落地的行业最新进展,结合行业进展思考大模型评测、训练的发展趋势,对模型评测体系、机制进行迭代。
随着AI下半场的到来,传统的评测范式已经无法适配持续提升的模型能力,针对ChatBot模型的Arena评测的有效性也遭到质疑,如何面向现阶段以及未来的模型能力进行科学有效的评估本身也是个极具挑战和价值的研究方向。OpenAI研究者也表示,AI接下来比拼的不是训练,而是“如何定义并评估真正有用的任务”。 在这样的背景下,美团大模型评测团队以指引通往AGI的道路为目标,深耕模型评测研究,系统性的理解大模型当前能力水平及未来技术发展方向,并以此为基础完善模型评测能力矩阵。团队工作方向包括但不限于:①构建科学有效的评测方案,为现阶段大模型提供有效的评测和分析手段,并面向未来模型储备评测技术,包括人机协同评测、产品化隐式评测方案、全模态交互式评测方案等;②结合训练和评测,对模型的能力进行建模及深入的理解和研究,包括能力体系构建、训练阶段分析、模型能力/问题溯源等;③探索模型能力边界,发现当前模型训练范式的局限性,寻求模型能力突破。 本岗位涉及的方向包括: 1. Agent评测构建与方案探索,包括但不限于:通用模型的Agent能力评测与探索,Computer Use、Code Agent、通用搜索等产品级Agent的评测方案和分析。 2. 长周期人机协作与Agent能力边界探索,包括但不限于:Agent的异步交互、适时思考、记忆管理、自主学习等能力的评测方案及实践探索。
1. 负责智驾车端模型/云端大模型的算法评测工作,运用数据驱动的方式推动模型持续优化与迭代升级; 2. 搭建车端/云端算法评测框架,建设全面的评测数据体系,保障评测数据的精准性和全面性; 3. 负责仿真评测系统的搭建与完善,构建多场景、多维度的评测指标,确保算法在复杂场景下的稳定性和可靠性; 4. 开发并优化评测相关的算法模型,提升评测系统的效率与准确度,协助建立自动化评测工具链,实现算法评测流程的标准化与自动化; 5. 推动评测工具与平台的持续迭代,支持不同算法模块的快速集成与评估,确保测试工具的扩展性与可用性。 根据评测数据与结果,提出算法优化方案,推动算法的快速迭代与性能提升。