logo of sensetime

商汤26届AI领航员-研究院-多模态理解基础模型

校招全职算法研究类地点:北京 | 上海 | 深圳状态:招聘

任职要求


背景扎实: 计算机科学、人工智能、电子工程、自动化等相关专业硕士或博士,学术基础优异(特别优秀的本科生亦可考虑)。
编程高手: 具备扎实的编程能力,精通 Python,并熟练掌握至少一种主流深度学习框架(PyTorch 优先)。
理论深厚: 熟悉机器学习深度学习基础理论,对 TransformerCNNRNN 等模型有深刻理解。
领域经验: 对以下至少一个领域有深入研究或项目经验:
自然语言处理NLP):特别是大语言模型(LLMs)的预训练、微调等。
计算机视觉(CV):熟悉图像识别、目标检测、分割等任务。
多模态学习(Multimodal Learning):了解或…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


前沿探索: 跟踪和研究多模态学习、大语言模型(LLMs)、视觉基础模型等领域的最新进展(如 Transformer、Diffusion Models、VLP等)。
模型构建: 参与多模态基础模型的核心架构设计与实现,探索如何高效融合文本、图像、音频等多源信息。
能力攻坚: 重点攻克并提升模型在特定维度的基础能力,包括但不限于:
视觉文本理解: 提升复杂场景下的文字识别(Scene Text Recognition)与光学字符识别(OCR)的精度和鲁棒性。
布局与结构感知: 让模型理解文档、网页、UI界面的布局结构,实现精准的信息提取与问答。
空间关系推理: 训练模型理解图像/视频中物体之间的方位、遮挡、从属等空间关系。
实验与优化: 设计和执行大规模的深度学习实验,对模型进行训练、评估和迭代优化,并分析实验结果,沉淀技术方案。
协作共创: 与团队中的顶尖科学家和资深工程师紧密合作,共同解决研究与工程中的挑战。
包括英文材料
Python+
深度学习+
PyTorch+
机器学习+
Transformer+
CNN+
RNN+
NLP+
还有更多 •••
相关职位

logo of sensetime
校招算法研究

1. 多模态空间智能前沿研究: 紧跟领域前沿,深入研究提升多模态模型在空间智能领域的整体性能; 2. 下游任务验证:验证多模态空间智能模型在具身智能体中的作用; 3. 创新技术探索: 探索新的预训练和后训练范式,找到在空间智能领域可泛化的训练范。

更新于 2025-08-21北京|上海|深圳
logo of sensetime
校招算法研究类

1. 多模态理解与生成算法研究: 紧跟领域前沿,深入研究多模态(图像、文本、视频)的理解与生成统一的核心算法; 2. 模型设计与优化: 负责多模态理解与生成模型的设计、训练、评估和优化,不断提升模型性能和泛化能力; 3. 创新技术探索: 探索新的预训练和后训练范式,发现和解决大模型靠单一模态难以解决的问题。

更新于 2025-08-21北京|上海|深圳
logo of sensetime
校招算法研究

1. 实时视频生成算法研究: 紧密追踪并深入研究实时视频生成领域的最新进展,积极探索新的模型架构、训练范式、优化策略和硬件加速方案,实现并验证工业界可落地的方案; 2. 模型设计与优化: 负责实时视频生成模型的设计、训练、评估和优化,在保证视频质量的同时,大幅提升生成速度和计算效率; 3. 性能瓶颈分析与解决: 针对实时性要求,深入分析现有算法和系统的性能瓶颈,并提出有效的解决方案,确保视频生成流程的流畅与高效。

更新于 2025-08-21北京|上海|深圳
logo of sensetime
校招算法研究

1. 负责实现和迭代自然语言处理相关算法,支撑企业数字化业务中的自然语言理解和生成需求,例如信息抽取、文档分析、检索问答、对话交互等; 2. 与工程团队协作,将算法集成到产品中,支撑金融业务场景的迭代优化; 3. 负责某一细分领域的深入算法研究,包括但不限于基础模型开发、对齐研究、推理优化、SFT训练及Agent智能体开发; 4. 设计和开发基于大语言模型(LLM)的智能Agent,优化其在金融场景中的任务规划、工具调用及自主决策能力; 5. 维护相关研究和业务方向的基准(代码、数据、Prompt/Instruction等),将创新算法沉淀为论文、技术报告或专利。

更新于 2025-08-21北京|上海