logo of sensetime

商汤26届AI领航员-研究院-多模态长视频时序理解

校招全职算法研究类地点:北京 | 上海 | 深圳状态:招聘

任职要求


相关领域经验(至少一项):
有视频理解(如动作识别、视频问答、时序定位)相关项目或研究经验。
有多模态学习(如Vision-Language Pre-training, Image/Video Captioning)相关经验。
熟悉大型语言模型(LLM)或大型多模态模型(LMM)的原理与实践。
在自监督学习、表征学习等领域有深入研究。

加分项(Bonus Points):
在CVPR, ICCV, ECCV, NeurIPS, ICML, ICLR等顶级会议或期刊上发表过相关论文者。
在Kaggle等国内外知名数据科学竞赛中取得优异成绩者。
拥有丰富的开源项目贡献经验,或个人GitHub有高质量项目者。
对数据敏感,具备优秀的数据处理和分析能力。

工作职责


我们相信潜力比经验更重要,但坚实的基础是潜力的基石。
扎实的理论基础: 计算机科学、人工智能、电子工程等相关专业在读硕士或博士生,对机器学习、深度学习有深入理解,熟悉Transformer等核心模型。
出色的编程能力: 精通Python,并熟练掌握至少一种主流深度学习框架(PyTorch优先)。具备良好的代码风格和工程素养。
强烈的探索精神: 对AI前沿技术有浓厚兴趣和热情,具备优秀的分析与解决问题的能力,能够独立思考并开展研究工作。
优秀的自驱与沟通: 具备强大的自驱力,能够快速学习新知识;同时拥有良好的沟通能力和团队协作精神。
包括英文材料
大模型+
CVPR+
ICCV+
ECCV+
NeurIPS+
ICML+
Kaggle+
数据科学+
GitHub+
相关职位

logo of sensetime
校招算法研究类

作为项目的核心成员,你将不仅仅是执行任务,更是与我们一同探索未知。 具体职责包括: 前沿探索: 追踪并复现NeurIPS, ICML, ICLR, CVPR等顶会中关于多模态、Agentic AI、强化学习等方向的最新研究成果。 算法实现: 参与设计与实现创新的多模态融合、任务规划、工具学习、记忆与反思等核心算法模型。 实验与分析: 设计并执行大规模的AI实验,通过严谨的数据分析来验证假设、评估模型性能,并提出富有洞见的改进方向。 系统构建: 参与构建和优化项目的数据集、评测基准(Benchmark)以及Agent的执行环境。 思想碰撞: 与团队成员紧密合作,积极参与每周的技术讨论会和头脑风暴,贡献你的奇思妙想。

更新于 2025-08-20
logo of sensetime
校招算法研究类

前沿探索: 跟踪和研究多模态学习、大语言模型(LLMs)、视觉基础模型等领域的最新进展(如 Transformer、Diffusion Models、VLP等)。 模型构建: 参与多模态基础模型的核心架构设计与实现,探索如何高效融合文本、图像、音频等多源信息。 能力攻坚: 重点攻克并提升模型在特定维度的基础能力,包括但不限于: 视觉文本理解: 提升复杂场景下的文字识别(Scene Text Recognition)与光学字符识别(OCR)的精度和鲁棒性。 布局与结构感知: 让模型理解文档、网页、UI界面的布局结构,实现精准的信息提取与问答。 空间关系推理: 训练模型理解图像/视频中物体之间的方位、遮挡、从属等空间关系。 实验与优化: 设计和执行大规模的深度学习实验,对模型进行训练、评估和迭代优化,并分析实验结果,沉淀技术方案。 协作共创: 与团队中的顶尖科学家和资深工程师紧密合作,共同解决研究与工程中的挑战。

更新于 2025-08-20
logo of sensetime
校招算法研究

1. 参与文档解析多模态大模型的研发,包括预训练、微调、指令对齐和推理优化; 2. 设计并实现高效的训练与推理系统,解决大规模文档数据处理、算力利用与模型优化问题; 3. 针对复杂文档场景,探索文本、版面(layout)、表格、公式、印章等多模态元素的解析方法; 4. 构建并优化文档解析全流程,包括数据预处理、模型训练、评测指标与工程化部署; 5. 结合业务需求,提出创新性方案并推动落地,形成可复现、可扩展的工程化体系。

更新于 2025-09-08
logo of sensetime
校招算法研究

1. 参与文档解析多模态大模型的研发和迭代,研发高效的强化学习训练与推理系统,解决大规模图文数据处理、算力利用及模型优化问题; 2. 设计并实现适用于多模态大模型的奖励机制,涵盖图文对齐、复杂推理、OCR/文档解析、表格理解、视觉问答、Agent 操作等多模态任务,探索创新性强化学习算法与多模态对齐方法; 3. 构建并优化多模态强化学习流程,包括数据生成、奖励模型训练、策略优化(如 PPO / DPO / GRPO 等)、模型评测与部署,实现模型能力的精准量化与持续优化; 4. 结合业务需求提出创新方案,推动 RL 优化后的多模态大模型在办公自动化、教育、金融等领域落地应用。

更新于 2025-09-08