logo of sensetime

商汤26届AI领航员-研究院-多模态大模型算法工程师

校招全职算法研究地点:北京 | 深圳状态:招聘

任职要求


1. 硕士及以上学历,计算机科学、人工智能、自动化、数学等相关专业;
2. 扎实的机器学习深度学习基础,熟悉TransformerOCR、信息抽取、多模态预训练等方向;
3. 熟练掌握Python,具备C++/CUDA/分布式训练经验者优先;
4. 具备良好的算法设计与工程实现能力,能独立推动从问题定义到方案落地的完整流程;
5. 在文档解析、多模态、NLP、CV或大模型相关领域有项目/论文/竞赛/开源成果者优先;
6. 具有创新精神和自我驱动力,能够在复杂问题中提出独立见解并推动创新落地。

工作职责


1. 参与文档解析多模态大模型的研发,包括预训练、微调、指令对齐和推理优化;
2. 设计并实现高效的训练与推理系统,解决大规模文档数据处理、算力利用与模型优化问题;
3. 针对复杂文档场景,探索文本、版面(layout)、表格、公式、印章等多模态元素的解析方法;
4. 构建并优化文档解析全流程,包括数据预处理、模型训练、评测指标与工程化部署;
5. 结合业务需求,提出创新性方案并推动落地,形成可复现、可扩展的工程化体系。
包括英文材料
学历+
机器学习+
深度学习+
Transformer+
OCR+
Python+
C+++
CUDA+
算法+
NLP+
大模型+
相关职位

logo of sensetime
校招算法研究

1. 参与文档解析多模态大模型的研发和迭代,研发高效的强化学习训练与推理系统,解决大规模图文数据处理、算力利用及模型优化问题; 2. 设计并实现适用于多模态大模型的奖励机制,涵盖图文对齐、复杂推理、OCR/文档解析、表格理解、视觉问答、Agent 操作等多模态任务,探索创新性强化学习算法与多模态对齐方法; 3. 构建并优化多模态强化学习流程,包括数据生成、奖励模型训练、策略优化(如 PPO / DPO / GRPO 等)、模型评测与部署,实现模型能力的精准量化与持续优化; 4. 结合业务需求提出创新方案,推动 RL 优化后的多模态大模型在办公自动化、教育、金融等领域落地应用。

更新于 2025-09-08
logo of sensetime
校招算法研究类

前沿追踪与洞察: 紧跟NeurIPS, ICML, ICLR, CVPR等顶会的最新研究,快速消化、复现并提出独到的见解。 思想的碰撞与具象化: 参与团队Brainstorming,大胆提出你关于下一代模型架构的创新想法,并与团队成员一起论证其可行性。 核心代码实现: 使用PyTorch等框架,设计并实现新颖的多模态模型模块或完整的模型结构。你的代码将是验证想法的核心。 科学的实验与分析: 设计严谨的实验方案,在海量数据和计算资源上进行模型训练与评测,通过数据分析驱动模型迭代优化。 知识沉淀与分享: 撰写技术报告或论文,与团队分享你的发现,共同推动项目前进。

更新于 2025-08-20
logo of sensetime
校招算法研究类

前沿探索: 跟踪和研究多模态学习、大语言模型(LLMs)、视觉基础模型等领域的最新进展(如 Transformer、Diffusion Models、VLP等)。 模型构建: 参与多模态基础模型的核心架构设计与实现,探索如何高效融合文本、图像、音频等多源信息。 能力攻坚: 重点攻克并提升模型在特定维度的基础能力,包括但不限于: 视觉文本理解: 提升复杂场景下的文字识别(Scene Text Recognition)与光学字符识别(OCR)的精度和鲁棒性。 布局与结构感知: 让模型理解文档、网页、UI界面的布局结构,实现精准的信息提取与问答。 空间关系推理: 训练模型理解图像/视频中物体之间的方位、遮挡、从属等空间关系。 实验与优化: 设计和执行大规模的深度学习实验,对模型进行训练、评估和迭代优化,并分析实验结果,沉淀技术方案。 协作共创: 与团队中的顶尖科学家和资深工程师紧密合作,共同解决研究与工程中的挑战。

更新于 2025-08-20
logo of sensetime
校招算法研究类

1. 针对多模态大模型设计并实现强化学习算法,提升模型在推理、工具调用、Agentic 能力上的表现。 2. 参与大模型的强化学习训练流水线设计与实现,包括奖励建模、策略优化、对齐训练等环节。 3. 关注行业内顶尖机构在 Agentic RL、多智能体学习、多模态推理 等方向的最新成果,基于前沿研究提出创新性方法,推动模型在复杂推理、长程规划、多轮对话等方向的突破。

更新于 2025-08-20