美团多模态算法工程师
社招全职核心本地商业-点评事业部地点:北京 | 上海状态:招聘
任职要求
1、对基于图像、视频、语音、文本等模态内容的各类算法算法有一定的理解,包括不限于图像/视频理解、检测、分割、OCR、人脸、ASR、文本生成等; 2、工程能力强,熟练掌握Python语言,有成功的项目经验; 3、熟悉常见的机器学习和深度学习算法,熟练使用至少一种深度学习框架,如Pytorch、TensorFlow、MXNet等; 4、对学术前沿有浓厚兴趣,时刻跟进技术前沿,并善于利用各类技术解决复杂的实际问题,有良好的沟通表达能力; 5、【加分】在顶级会议或期刊上发表过有影响力的学术论文或在重要算法比赛中取得过前几名的优异成绩。 6、 具备良好的沟通协调能力和团队合作精神,能够与不同部门和层级的人员进行有效沟通和协作。
工作职责
1. 协助完成多模态、视觉、NLP等算法相关领域的研究工作,包括但不限于:模型pretrain、多模态融合、多模态对齐、多模态内容理解及相关的大中小的模型等等。 2、依托海量真实业务数据,在CV/NLP/多模态等方向的单点技术上进行前沿技术研究和业务落地,核心解决真实的业务场景问题。 3、研发更高效利用多模态信息的方法,深入挖掘短视频各个模态中包含的有价值信息,对多模态语料进行各个维度上的充分理解。 4、负责计算机多模态理解方向前沿问题的研究,参与建设并持续保持部门在多模态业界的技术先进性,保持创新的同时将业界SOTA模型持续优化并落地至线上获得收益。
包括英文材料
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
OCR+
https://www.ibm.com/think/topics/optical-character-recognition
Optical character recognition (OCR) is a technology that uses automated data extraction to quickly convert images of text into a machine-readable format.
https://www.youtube.com/watch?v=or8AcS6y1xg
Optical character recognition (OCR) is sometimes referred to as text recognition.
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
机器学习+
https://www.youtube.com/watch?v=0oyDqO8PjIg
Learn about machine learning and AI with this comprehensive 11-hour course from @LunarTech_ai.
https://www.youtube.com/watch?v=i_LwzRVP7bg
Learn Machine Learning in a way that is accessible to absolute beginners.
https://www.youtube.com/watch?v=NWONeJKn6kc
Learn the theory and practical application of machine learning concepts in this comprehensive course for beginners.
https://www.youtube.com/watch?v=PcbuKRNtCUc
Learn about all the most important concepts and terms related to machine learning and AI.
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
TensorFlow+
https://www.youtube.com/watch?v=tpCFfeUEGs8
Ready to learn the fundamentals of TensorFlow and deep learning with Python? Well, you’ve come to the right place.
https://www.youtube.com/watch?v=ZUKz4125WNI
This part continues right where part one left off so get that Google Colab window open and get ready to write plenty more TensorFlow code.
相关职位
社招3年以上核心本地商业-点
1.利用计算机视觉和人工智能技术,改进点评笔记、评价等多个点评创作产品的创作体验。 2.参与研发以计算机视觉和人工智能技术为核心的创新型内容玩法。 3.探索MLLM,LLM,VLM等相关算法前沿,应用于业务并解决实际业务问题。 4.负责对业务场景下相关技术问题进行分析、算法设计和上线,全面参与并推动各环节的高效运行,以实现持续的业务价值提升。 5.研究并开发智能Agent系统,优化用户与AI系统的交互体验。
更新于 2025-04-17
社招3-5年算法开发岗
1. 构建基于计算机视觉 + VLM/MLLM 的容器与商品语义理解体系,融合图像、点云与文本信息,提高复杂 SKU 识别与定位鲁棒性。 2. 设计检测/分割 + 3D 点云融合网络,实现多品混放场景的实例分割与 6D 抓取点预测。 3. 对 LLaVA、Qwen2-VL、InternVL2.5 等多模态大模型进行指令微调,支持机器人自然语言任务下达与动态规划。 4. 负责相机、雷达联合标定,多传感器融合(RGB-D + 点云 + 力矩传感器)。 5. 搭建自动标注与主动学习流水线,建设数据飞轮。 6. 关注行业最新多模态技术,快速验证并落地仓储场景。
更新于 2025-06-10
社招TEG技术
1.负责垂直场景多模态大模型研发,包括图文、视频、音频等多个模态的预训练和SFT训练,探索合成数据在多模态训练上的应用; 2.负责大模型安全、内容治理、电商等多场景业务的内容理解,包括多模态表征、图文/视频意图理解、相同/相似判断、自动问答等; 3.负责跟踪和研究大模型前沿问题,并应用于解决实际的业务痛点。
更新于 2025-04-16