腾讯多模态大模型算法工程师
社招全职5年以上CAI中台技术地点:深圳状态:招聘
任职要求
1.计算机科学、人工智能、计算机视觉、多模态理解等相关专业硕士及以上学历,博士优先; 2.熟练掌握PyTorch/TensorFlow框架,具备模型从零搭建、训练到优化的实践经验; 3.熟练掌握常用深度学习模型,具备多模态大模型(如stable diffusion/flux/qwen2.5-vl)训练调优经验,熟悉RL方法的大模型训练方法(如DPO、PPO、GRPO)等相关技术; 4.熟悉分布式训练技术,如数据并行、模型并行、流水线并行,了解常用的分布式训练框架(如DeepSpeed, Megatron-LM); 5.具备良好的阅读和理解英文技术论文的能力,能够快速学习和掌握新知识。
工作职责
1.负责多模态大模型(如图文理解、图文结合生成)的核心算法研究、设计与实现,包括但不限于模型结构创新、对齐技术、指令微调等,提升模型在线上业务的表现; 2.研究文生图、文生视频的强化学习后训练方法,提升图文一致性和生成稳定性; 3.紧密跟踪国内外多模态AI、大模型领域的最新研究进展,探索原生多模态生图和编辑模型设计和训练; 4.设计、实现并优化大规模多模态数据的预处理、清洗、标注、特征提取及高效融合方法; 5.参与团队内部的技术分享、专利申请、论文发表等工作,提升团队整体技术水平。
包括英文材料
OpenCV+
https://learnopencv.com/getting-started-with-opencv/
At LearnOpenCV we are on a mission to educate the global workforce in computer vision and AI.
https://opencv.org/university/free-opencv-course/
This free OpenCV course will teach you how to manipulate images and videos, and detect objects and faces, among other exciting topics in just about 3 hours.
学历+
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
TensorFlow+
https://www.youtube.com/watch?v=tpCFfeUEGs8
Ready to learn the fundamentals of TensorFlow and deep learning with Python? Well, you’ve come to the right place.
https://www.youtube.com/watch?v=ZUKz4125WNI
This part continues right where part one left off so get that Google Colab window open and get ready to write plenty more TensorFlow code.
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
Stable Diffusion+
https://course.fast.ai/Lessons/lesson9.html
This lesson starts with a tutorial on how to use pipelines in the Diffusers library to generate images.
https://www.youtube.com/watch?v=dMkiOex_cKU
earn how to use Stable Diffusion to create art and images in this full course.
DeepSpeed+
https://www.youtube.com/watch?v=pDGI668pNg0
Megatron+
https://www.youtube.com/watch?v=hc0u4avAkuM
相关职位
社招5年以上A231501
1. 负责生态链产品大模型算法研发,主要是基于基座模型的finetune和应用 2. 负责大模型算法落地应用,包括IPC、智能门锁、智能音箱等场景,与产品和工程紧密配合,将大模型算法在能产生用户价值的场景中进行落地 3. 大模型算法部署和小型化研究,适配低成本和低算力设备 4. 可能会参与传统深度学习模型的研发和落地
更新于 2024-10-28
校招J1007
1、打造最适合短视频、直播、搜索推荐、电商、创作者玩法的多模态大模型,为快手的各项业务提供基座模型技术支持。多模态技术是通向AGI的重要方法和里程碑,期待和更多对多模态技术感兴趣的同学一起打造真正带来价值的模型算法技术; 2、深度探索多模态大模型的多阶段预训练、监督微调和RLHF等技术,打造业界第一梯队的多模态大模型,赶超GPT-4o、Gemini Pro等闭源模型的实际使用效果; 3、图片、语音、音频和视频多种模态信号的高效处理方式探索,提供对各类信号最精准的理解能力; 4、混合专家、蒸馏剪枝等兼顾模型性能和效果的技术探索。
更新于 2025-08-15
社招
1. 探索研究多模态理解、生成式AI、机器学习、强化学习、AIGC、计算机视觉、人工智能等前沿技术; 2. 探索大规模/超大规模多模态理解与生成交织的基础模型,并进行极致系统优化;数据建设、指令微调、偏好对齐、模型优化;提升数据合成、Scalable Oversight、模型推理、规划能力,构建全面客观准确的评测体系,探索提升大模型能力; 3. 探索突破包括而不限于多模态RAG,视觉COT与Agent等在内的多模态模型、世界模型进阶能力,构建GUI/游戏等虚拟世界的通用多模态Agent; 4. 利用预训练、仿真等技术对虚拟/现实世界的各类环境进行建模,提供多模态交互探索的基本能力,推动应用落地,研发以人工智能技术为核心的新技术、新产品。
更新于 2025-03-04