
商汤26届AI领航员-研究院-多模态推理与Agent能力突破
任职要求
1、基础扎实: 计算机科学、人工智能、电子工程或相关专业的硕士或博士生。对机器学习、深度学习、自然语言处理有深入的理解。 2、编程高手: 具备优秀的编程能力,精通Python,并熟练掌握至少一种主流深度学习框架(PyTorch)。 3、学无止境: 拥有强烈的求知欲和自驱力,能够快速学习新知识,并对解决开放性问题充满热情。 4、逻辑清晰: 具备出色的分析问题和解决问题的能力,能够将复杂的想法转化为可执行的方案。…
工作职责
作为项目的核心成员,你将不仅仅是执行任务,更是与我们一同探索未知。 具体职责包括: 前沿探索: 追踪并复现NeurIPS, ICML, ICLR, CVPR等顶会中关于多模态、Agentic AI、强化学习等方向的最新研究成果。 算法实现: 参与设计与实现创新的多模态融合、任务规划、工具学习、记忆与反思等核心算法模型。 实验与分析: 设计并执行大规模的AI实验,通过严谨的数据分析来验证假设、评估模型性能,并提出富有洞见的改进方向。 系统构建: 参与构建和优化项目的数据集、评测基准(Benchmark)以及Agent的执行环境。 思想碰撞: 与团队成员紧密合作,积极参与每周的技术讨论会和头脑风暴,贡献你的奇思妙想。

1. 负责实现和迭代自然语言处理相关算法,支撑企业数字化业务中的自然语言理解和生成需求,例如信息抽取、文档分析、检索问答、对话交互等; 2. 与工程团队协作,将算法集成到产品中,支撑金融业务场景的迭代优化; 3. 负责某一细分领域的深入算法研究,包括但不限于基础模型开发、对齐研究、推理优化、SFT训练及Agent智能体开发; 4. 设计和开发基于大语言模型(LLM)的智能Agent,优化其在金融场景中的任务规划、工具调用及自主决策能力; 5. 维护相关研究和业务方向的基准(代码、数据、Prompt/Instruction等),将创新算法沉淀为论文、技术报告或专利。

前沿探索: 跟踪和研究多模态学习、大语言模型(LLMs)、视觉基础模型等领域的最新进展(如 Transformer、Diffusion Models、VLP等)。 模型构建: 参与多模态基础模型的核心架构设计与实现,探索如何高效融合文本、图像、音频等多源信息。 能力攻坚: 重点攻克并提升模型在特定维度的基础能力,包括但不限于: 视觉文本理解: 提升复杂场景下的文字识别(Scene Text Recognition)与光学字符识别(OCR)的精度和鲁棒性。 布局与结构感知: 让模型理解文档、网页、UI界面的布局结构,实现精准的信息提取与问答。 空间关系推理: 训练模型理解图像/视频中物体之间的方位、遮挡、从属等空间关系。 实验与优化: 设计和执行大规模的深度学习实验,对模型进行训练、评估和迭代优化,并分析实验结果,沉淀技术方案。 协作共创: 与团队中的顶尖科学家和资深工程师紧密合作,共同解决研究与工程中的挑战。

1. 针对多模态大模型设计并实现强化学习算法,提升模型在推理、工具调用、Agentic 能力上的表现。 2. 参与大模型的强化学习训练流水线设计与实现,包括奖励建模、策略优化、对齐训练等环节。 3. 关注行业内顶尖机构在 Agentic RL、多智能体学习、多模态推理 等方向的最新成果,基于前沿研究提出创新性方法,推动模型在复杂推理、长程规划、多轮对话等方向的突破。