logo of meituan

美团【LongCat实习】基座评测与认知分析-多模态与前沿交互研究

实习兼职核心本地商业-基础研发平台地点:北京 | 上海状态:招聘

任职要求


1. 硕士及以上学历,计算机、数学、统计学或相关专业。
2. 熟悉Java/Python/C++等编程语言,良好的编码习惯和一定的工程能力 。
3. 具有深度学习和大模型原…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


多模态大模型能力在近年飞速发展,模态的统一、任务的统一、多种模态联合生成和实时交互带来了崭新的应用体验和生产力提升。在这个过程中,我们需要脚踏实地的同时仰望星空,发挥想象力预判新模型能力带来的应用场景革新,研究达到理想态的关键演进路径并进行度量分析,指引长期有潜力的模型迭代方向。方向包括但不限于
1.多模Agent方向:包括在多模态的工具调用和GUI/CUA,探索结合多模原生能力的OpenClaw展现出的生产力提升潜力,从基座模型能力角度分析其中的关键影响因素并进行自动化度量,指引基座模型的迭代;
2.多模态统一方向:包括全模态统一模型、音视频联合生成等,思考在模态统一、任务统一和多种模态联合生成过程带来新的能力跃迁并进行度量,分析模态和任务间的相互关联,指引模型架构、训练策略等选型;
3.多模交互方向:包括通用世界模型、音视频交互等,研究动态多轮交互中的一致性、真实性和长程记忆等关键能力的自动化度量,指引基座模型的迭代;
【为什么是我们】
一起建立行业评测标杆,推动行业认知进展,代表工作包括:
1.UNOBench 行业首个考察全模态协作能力,并得出全模态和单模态能力Compositional Law,指引1+1+1>3的全模态能力发展。
2.EvalTalker 行业首个多人、多姿态、全景覆盖的数字人评测基准,指引自研Longcat-Avatar模型稳居业界前沿。
3.UniHetero 行业首个验证生成能促进理解的unified model,以简洁的结构在大规模数据上得到更好的data-scaling。
包括英文材料
学历+
Java+
Python+
还有更多 •••