美团【北斗】多模态大语言模型算法研究员
校招全职核心本地商业-业务研发平台地点:北京状态:招聘
任职要求
【任职资格】 必备条件: 1.2027届计算机、人工智能、数学、统计、电子信息、自动化等相关专业,本科及以上学历,博士/硕士优先。 2.扎实的机器学习与深度学习基础,熟悉Transformer、Vision Transformer、CLIP、VLM、MLLM等主流多模态模型架构,具备独立阅读和复现顶会论文的能力。 3.熟练掌握Python及PyTorch/JAX等主流深度学习框架,具备清晰的代码工程意识和端到端实验能力。 4.对多模态大模型训练流程有系统性理解,熟悉视觉编码器、语言模型、跨模态对齐、图文/视频数据构建、多模态指令微调等关键环节。 5.对多模态Agent构建有深入理解,熟悉任务规划、工具调用、视觉感知、跨模态推理、多轮交互、记忆机制与失败模式分析。 加分项: 1.在NeurIPS、ICML、ICLR…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
【愿景】 建成全球持续领先、客户长期信赖的履约技术平台,打造市场首选、社会认可、服务10亿用户的配送品牌。 【你将参与】 方向一:多模态Agent技术体系研究与落地 1.面向真实业务场景,设计并构建多模态Agent技术体系,覆盖图像、视频、文本、语音等多源信息理解,以及任务规划、工具调用、多轮交互、跨模态推理、自我反思与纠错等核心能力。 2.围绕复杂业务任务,抽象多模态Agent的关键问题与模式,探索视觉感知、复杂推理、工具协同和任务执行的一体化优化方案,提升Agent在真实场景中的准确性、鲁棒性与执行效率。 方向二:多模态模型训练与后训练优化 1.负责多模态大模型及Agent模型的训练与优化,包括多模态指令精调、偏好对齐、奖励建模、过程监督等方向,提升模型在视觉理解、视频分析、图文推理、工具调用和复杂任务执行中的能力上限。 2.参与多模态训练数据与反馈数据建设,包括图文/视频数据清洗、合成数据构建、标注流程设计、偏好数据生产、评测数据沉淀等,支撑模型持续迭代。 方向三:多模态评测与业务闭环建设 1.设计覆盖多模态Agent行为、模型感知能力、跨模态推理能力、工具调用能力和业务效果的评测体系,建立自动化诊断与归因链路。 2.与业务团队深度协作,构建训练—评估—迭代闭环,将多模态Agent能力落地到真实业务流程中,并转化为可量化的线上收益。
包括英文材料
学历+
机器学习+
https://www.youtube.com/watch?v=0oyDqO8PjIg
Learn about machine learning and AI with this comprehensive 11-hour course from @LunarTech_ai.
https://www.youtube.com/watch?v=i_LwzRVP7bg
Learn Machine Learning in a way that is accessible to absolute beginners.
https://www.youtube.com/watch?v=NWONeJKn6kc
Learn the theory and practical application of machine learning concepts in this comprehensive course for beginners.
https://www.youtube.com/watch?v=PcbuKRNtCUc
Learn about all the most important concepts and terms related to machine learning and AI.
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
Transformer+
https://huggingface.co/learn/llm-course/en/chapter1/4
Breaking down how Large Language Models work, visualizing how data flows through.
https://poloclub.github.io/transformer-explainer/
An interactive visualization tool showing you how transformer models work in large language models (LLM) like GPT.
https://www.youtube.com/watch?v=wjZofJX0v4M
Breaking down how Large Language Models work, visualizing how data flows through.
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
JAX+
https://docs.jax.dev/en/latest/notebooks/thinking_in_jax.html
JAX is a library for array-oriented numerical computation, with automatic differentiation and JIT compilation to enable high-performance machine learning research.
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
AI agent+
https://www.ibm.com/think/ai-agents
Your one-stop resource for gaining in-depth knowledge and hands-on applications of AI agents.
还有更多 •••