美团大模型通用产品-人机协同方向
任职要求
1.3 年以上互联网产品经理经验,具备人机协同 / 大模型项目落地经验;有智能客服、智能坐席辅助、大模型 Agent 类产品经验者优先。 2.项目与协作能力:优秀的项目管理、跨团队沟通与协调能力,能推动技术、运营、业务等多方资源,…
工作职责
1. 拆解人机协同技术边界:结合亿级 C 端用户行为数据与高频业务场景,探索大模型 + 人工协同在业务场景中的应用价值,实现人机协作效率、用户体验与模型效果的平衡。 2.跟进技术前沿:持续跟踪大模型、人机交互、智能辅助决策等技术进展,结合业务需求推动落地试点,优化人机协作流程、提升业务处理效率与用户满意度。 3.制定探索路径与目标:清晰规划人机协同产品迭代节奏,制定量化目标,输出各阶段价值评估报告,对齐业务预期与资源投入。 4.把控落地验证与评测:负责人机协同能力可行性验证、方案实现,制定效果指标与评测方案,确保方案可落地、可量化、可迭代。 5.跟踪核心指标与用户反馈:持续监控人机协同核心指标(如人工介入率、问题解决率、响应时长等),收集用户与坐席反馈并转化为产品需求,适配业务与用户行为变化。
随着AI下半场的到来,传统的评测范式已经无法适配持续提升的模型能力,针对ChatBot模型的Arena评测的有效性也遭到质疑,如何面向现阶段以及未来的模型能力进行科学有效的评估本身也是个极具挑战和价值的研究方向。OpenAI研究者也表示,AI接下来比拼的不是训练,而是“如何定义并评估真正有用的任务”。 在这样的背景下,美团大模型评测团队以指引通往AGI的道路为目标,深耕模型评测研究,系统性的理解大模型当前能力水平及未来技术发展方向,并以此为基础完善模型评测能力矩阵。团队工作方向包括但不限于:①构建科学有效的评测方案,为现阶段大模型提供有效的评测和分析手段,并面向未来模型储备评测技术,包括人机协同评测、产品化隐式评测方案、全模态交互式评测方案等;②结合训练和评测,对模型的能力进行建模及深入的理解和研究,包括能力体系构建、训练阶段分析、模型能力/问题溯源等;③探索模型能力边界,发现当前模型训练范式的局限性,寻求模型能力突破。 本岗位涉及的方向包括: 1. Agent评测构建与方案探索,包括但不限于:通用模型的Agent能力评测与探索,Computer Use、Code Agent、通用搜索等产品级Agent的评测方案和分析。 2. 长周期人机协作与Agent能力边界探索,包括但不限于:Agent的异步交互、适时思考、记忆管理、自主学习等能力的评测方案及实践探索。
美团大模型评测团队以指引通往AGI的道路为目标,深耕模型评测研究,系统性的理解大模型当前能力水平及未来技术发展方向,并以此为基础完善模型评测能力矩阵。团队工作方向包括但不限于: 1.构建科学有效的评测方案,为现阶段大模型提供有效的评测和分析手段,并面向未来模型储备评测技术,包括人机协同评测、产品化隐式评测方案、全模态交互式评测方案等; 2.结合模型训练过程和评测结果,对模型的能力进行建模及深入的理解和研究,包括能力体系构建、训练阶段分析、模型能力/问题溯源等; 3.探索模型能力边界,发现当前模型训练范式的局限性,寻求模型能力突破,包括异步交互、记忆管理、自主学习、具身智能等。 本岗位涉及的模型及方向包括: 1.面向下一代文本模型的评测与探索,包括但不限于:完善推理系模型的评测框架,引入推理效率相关的评测指标等。 2.面向多模理解与生成能力评测与探索,包括但不限于:全模态及跨模态交互能力,世界模型与具身智能能力。 3.面向模型Agent能力的评测与探索,包括但不限于:模型的任务规划、工具使用、环境反馈、自主决策等通用Agent能力,及Computer Use、Code Agent、通用搜索等产品级Agent方向。 4.长周期人机协作与Agent能力边界探索,包括但不限于:Agent的异步交互、适时思考、记忆管理、自主学习等能力的评测方案及实践探索。
关于我们 我们正在淘天复杂业务场景中构建“可持续进化”的 AI Agent:不仅能回答问题,更能从每一次交互中学习、反思并自我优化。团队聚焦 高质量训练数据闭环 与 Agent 自动化评测体系 两大核心方向,在商家经营、智能决策等高复杂度场景中持续落地,已形成从数据采集、质量评估、清洗增强到模型训练与线上验证的完整飞轮。 我们相信,高质量、可扩展的路径级(Chain-of-Action, CoA)数据是 Agent 能力跃迁的燃料。当前,我们正系统性构建面向规划、推理与工具调用的自动化数据生产与评估基础设施,期待你的加入。 你将获得什么 ● 在丰富的真实业务场景中验证价值:技术迭代直接应用于公司的Agent平台,影响成百上千真实业务场景的Agent,快速进入线上验证闭环,获取业务价值和真实反馈。 ● 对Agent数据构建和评估的深刻理解:从大规模轨迹数据采集、多维质量评估指标设计,到 SFT/RL 训练数据增强与人机协同标注体系,既能做算法创新,也能打造高可用数据基建; ● 充分的业务场景真实数据与计算资源: 团队训练资源充足,能在不同架构/不同规模模型上完成微调、对齐与能力专项提升,并形成可复用的训练范式,充分利用各种开源/闭源模型的能力。 ● 个人技术成长:支持多元化方向发展,鼓励对外分享与论文/专利沉淀。 岗位职责 1、主导基于大模型的AI Agent全生命周期研发,包括通用型及垂直领域AI Agent的应用架构设计、数据构建、模型训练与评测; 2、重点探索模型后训练数据质量评估和清洗Pipeline的体系化构建,构建高质量路径级(CoA)训练数据的自动化校验和清洗方案; 3、运用SFT、RL等Post-training训练方法,提升大模型在自主规划(Planning)、多步推理、RAG增强生成、工具调用、数据问答等方面的能力; 4、跟踪LLM与Agent领域的国际前沿技术动态,推动技术创新在业务场景中的落地应用,重点关注模型评测Benchmark、数据构建、Agent自动化评测等技术和应用方向; 5、结合AI基建产品构建起人机协同的Agent训练数据质量和规模的持续提升优化技术能力,为各垂类Agent构建起高质量的训练数据池。