
商汤26届AI领航员-研究院-下一代高效多模态大模型架构研究
校招全职算法研究类地点:北京 | 上海 | 深圳状态:招聘
任职要求
岗位职责: 专业背景: 计算机科学、人工智能、电子工程、数学等相关专业硕士或博士。 编程功底: 扎实的Python编程能力,并精通至少一种主流深度学习框架(PyTorch优先)。 理论深度: 深入理解深度学习原理,对Transformer、注意力机制、CNN、RNN等模型有深刻认知。 科研热情: 对探索AI前沿技术抱有极大的热情和好奇心,具备优秀的分析问题和解决问题的能力。 学习能力: 能够快速学习新知识,并具备独立进行研究的能力。 加分项: 顶会发表: 在AI/ML/CV/NLP领域的顶级会议或期刊(如NeurIPS, ICML, CVPR, ICLR, ACL, Nature, Science等)上有论文发表记录。 竞赛大神: 在Kaggle等数据科学竞赛或相关学术竞赛中取得过优异成绩。 实战经验: 有多模态学习、模型压缩(量化/剪枝)、高效模型结构(如Encoder-free、MoE)或大规模模型训练的实际项目经验。 开源贡献: 活跃的GitHub贡献者,对开源社区有热情。
工作职责
前沿追踪与洞察: 紧跟NeurIPS, ICML, ICLR, CVPR等顶会的最新研究,快速消化、复现并提出独到的见解。 思想的碰撞与具象化: 参与团队Brainstorming,大胆提出你关于下一代模型架构的创新想法,并与团队成员一起论证其可行性。 核心代码实现: 使用PyTorch等框架,设计并实现新颖的多模态模型模块或完整的模型结构。你的代码将是验证想法的核心。 科学的实验与分析: 设计严谨的实验方案,在海量数据和计算资源上进行模型训练与评测,通过数据分析驱动模型迭代优化。 知识沉淀与分享: 撰写技术报告或论文,与团队分享你的发现,共同推动项目前进。
包括英文材料
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
Transformer+
https://huggingface.co/learn/llm-course/en/chapter1/4
Breaking down how Large Language Models work, visualizing how data flows through.
https://poloclub.github.io/transformer-explainer/
An interactive visualization tool showing you how transformer models work in large language models (LLM) like GPT.
https://www.youtube.com/watch?v=wjZofJX0v4M
Breaking down how Large Language Models work, visualizing how data flows through.
CNN+
https://learnopencv.com/understanding-convolutional-neural-networks-cnn/
Convolutional Neural Network (CNN) forms the basis of computer vision and image processing.
[英文] CNN Explainer
https://poloclub.github.io/cnn-explainer/
Learn Convolutional Neural Network (CNN) in your browser!
https://www.deeplearningbook.org/contents/convnets.html
Convolutional networks(LeCun, 1989), also known as convolutional neuralnetworks, or CNNs, are a specialized kind of neural network for processing data.
https://www.youtube.com/watch?v=2xqkSUhmmXU
MIT Introduction to Deep Learning 6.S191: Lecture 3 Convolutional Neural Networks for Computer Vision
RNN+
https://d2l.ai/chapter_recurrent-neural-networks/rnn.html
A neural network that uses recurrent computation for hidden states is called a recurrent neural network (RNN).
https://www.deeplearningbook.org/contents/rnn.html
Recurrent neural networks, or RNNs (Rumelhart et al., 1986a), are a family of neural networks for processing sequential data.
https://www.ibm.com/think/topics/recurrent-neural-networks
A recurrent neural network or RNN is a deep neural network trained on sequential or time series data to create a machine learning (ML) model that can make sequential predictions or conclusions based on sequential inputs.
NLP+
https://www.youtube.com/watch?v=fNxaJsNG3-s&list=PLQY2H8rRoyvzDbLUZkbudP-MFQZwNmU4S
Welcome to Zero to Hero for Natural Language Processing using TensorFlow!
https://www.youtube.com/watch?v=R-AG4-qZs1A&list=PLeo1K3hjS3uuvuAXhYjV2lMEShq2UYSwX
Natural Language Processing tutorial for beginners series in Python.
https://www.youtube.com/watch?v=rmVRLeJRkl4&list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4
The foundations of the effective modern methods for deep learning applied to NLP.
NeurIPS+
https://neurips.cc/
ICML+
https://icml.cc/
CVPR+
https://cvpr.thecvf.com/
ICLR+
https://iclr.cc/
Kaggle+
[英文] Kaggle Learn
https://www.kaggle.com/learn
Gain the skills you need to do independent data science projects.
数据科学+
https://roadmap.sh/ai-data-scientist
Step by step roadmap guide to becoming an AI and Data Scientist
GitHub+
[英文] GitHub Learn
https://learn.github.com/
Discover a wide range of beginner-friendly tutorials, hands-on learning, and expert-led lessons.
相关职位

校招算法研究
1. 多模态空间智能前沿研究: 紧跟领域前沿,深入研究提升多模态模型在空间智能领域的整体性能; 2. 下游任务验证:验证多模态空间智能模型在具身智能体中的作用; 3. 创新技术探索: 探索新的预训练和后训练范式,找到在空间智能领域可泛化的训练范。
更新于 2025-07-28

校招算法研究类
1. 多模态理解与生成算法研究: 紧跟领域前沿,深入研究多模态(图像、文本、视频)的理解与生成统一的核心算法; 2. 模型设计与优化: 负责多模态理解与生成模型的设计、训练、评估和优化,不断提升模型性能和泛化能力; 3. 创新技术探索: 探索新的预训练和后训练范式,发现和解决大模型靠单一模态难以解决的问题。
更新于 2025-07-28

校招算法研究
1. 实时视频生成算法研究: 紧密追踪并深入研究实时视频生成领域的最新进展,积极探索新的模型架构、训练范式、优化策略和硬件加速方案,实现并验证工业界可落地的方案; 2. 模型设计与优化: 负责实时视频生成模型的设计、训练、评估和优化,在保证视频质量的同时,大幅提升生成速度和计算效率; 3. 性能瓶颈分析与解决: 针对实时性要求,深入分析现有算法和系统的性能瓶颈,并提出有效的解决方案,确保视频生成流程的流畅与高效。
更新于 2025-07-28