美团多模态算法工程师
任职要求
1.具有3年或以上算法研发经验,拥有计算机科学或相关领域的硕士以上学历。 2.熟悉并熟练使用Pytorch、Tensorflow等相关深度学习训练框架,了解Deepspeed,Transformers,CLIP等。 3.在MLLM、CV、NLP等相关方向有一定技术积累和实践经验。 4.具备扎实的编程技能(Python/C++),有良好的工程思维,能够进行算法服务的部署和维护,并有成功将算法应用于业务的实战经验。 5.能将复杂的业务问题转化为有效的算法解决方案,包括但不限于:“创作意图理解”,“创作素材推荐”,“创作内容生成”等,展现出强烈的求知欲、自我驱动和创新精神,善于跟踪和学习行业前沿趋势和技术实践。 具备以下条件优先 具有在知名社交媒体、内容平台智能创作团队工作经验。 在国际顶会或核心期刊上发表过学术论文,或者具备竞争力的比赛成绩。 有智能Agent系统开发或应用经验。
工作职责
1.利用计算机视觉和人工智能技术,改进点评笔记、评价等多个点评创作产品的创作体验。 2.参与研发以计算机视觉和人工智能技术为核心的创新型内容玩法。 3.探索MLLM,LLM,VLM等相关算法前沿,应用于业务并解决实际业务问题。 4.负责对业务场景下相关技术问题进行分析、算法设计和上线,全面参与并推动各环节的高效运行,以实现持续的业务价值提升。 5.研究并开发智能Agent系统,优化用户与AI系统的交互体验。
1. 构建基于计算机视觉 + VLM/MLLM 的容器与商品语义理解体系,融合图像、点云与文本信息,提高复杂 SKU 识别与定位鲁棒性。 2. 设计检测/分割 + 3D 点云融合网络,实现多品混放场景的实例分割与 6D 抓取点预测。 3. 对 LLaVA、Qwen2-VL、InternVL2.5 等多模态大模型进行指令微调,支持机器人自然语言任务下达与动态规划。 4. 负责相机、雷达联合标定,多传感器融合(RGB-D + 点云 + 力矩传感器)。 5. 搭建自动标注与主动学习流水线,建设数据飞轮。 6. 关注行业最新多模态技术,快速验证并落地仓储场景。
1.负责垂直场景多模态大模型研发,包括图文、视频、音频等多个模态的预训练和SFT训练,探索合成数据在多模态训练上的应用; 2.负责大模型安全、内容治理、电商等多场景业务的内容理解,包括多模态表征、图文/视频意图理解、相同/相似判断、自动问答等; 3.负责跟踪和研究大模型前沿问题,并应用于解决实际的业务痛点。
1.负责垂直场景多模态大模型研发,包括图文、视频、音频等多个模态的预训练和SFT训练,探索合成数据在多模态训练上的应用; 2.负责大模型安全、内容治理、电商等多场景业务的内容理解,包括多模态表征、图文/视频意图理解、相同/相似判断、自动问答等; 3.负责跟踪和研究大模型前沿问题,并应用于解决实际的业务痛点。
1. 协助完成多模态、视觉、NLP等算法相关领域的研究工作,包括但不限于:模型pretrain、多模态融合、多模态对齐、多模态内容理解及相关的大中小的模型等等。 2、依托海量真实业务数据,在CV/NLP/多模态等方向的单点技术上进行前沿技术研究和业务落地,核心解决真实的业务场景问题。 3、研发更高效利用多模态信息的方法,深入挖掘短视频各个模态中包含的有价值信息,对多模态语料进行各个维度上的充分理解。 4、负责计算机多模态理解方向前沿问题的研究,参与建设并持续保持部门在多模态业界的技术先进性,保持创新的同时将业界SOTA模型持续优化并落地至线上获得收益。