
商汤26届AI领航员-研究院-多模态大模型算法工程师
任职要求
1. 硕士及以上学历,计算机科学、人工智能、自动化、数学等相关专业; 2. 扎实的机器学习、深度学习基础,熟悉Transformer、OCR、信息抽取、多模态预训练等方向; 3. 熟练掌握Python,具备C++/CUDA/分布式训练经验者优先; 4…
工作职责
1. 参与文档解析多模态大模型的研发,包括预训练、微调、指令对齐和推理优化; 2. 设计并实现高效的训练与推理系统,解决大规模文档数据处理、算力利用与模型优化问题; 3. 针对复杂文档场景,探索文本、版面(layout)、表格、公式、印章等多模态元素的解析方法; 4. 构建并优化文档解析全流程,包括数据预处理、模型训练、评测指标与工程化部署; 5. 结合业务需求,提出创新性方案并推动落地,形成可复现、可扩展的工程化体系。

1. 多模态理解与生成算法研究: 紧跟领域前沿,深入研究多模态(图像、文本、视频)的理解与生成统一的核心算法; 2. 模型设计与优化: 负责多模态理解与生成模型的设计、训练、评估和优化,不断提升模型性能和泛化能力; 3. 创新技术探索: 探索新的预训练和后训练范式,发现和解决大模型靠单一模态难以解决的问题。

1. 负责大模型算法框架的研发,整体提升算法框架训练效率,跟进最近的训练技术; 2. 负责探索MOE、RLHF 等相关对齐技术,提升模型的最终效果; 3. 负责多模态模型和Function Call 模型的联合训练,整体优化多模态模型和语言模型联合训练。

1. 负责实现和迭代自然语言处理相关算法,支撑企业数字化业务中的自然语言理解和生成需求,例如信息抽取、文档分析、检索问答、对话交互等; 2. 与工程团队协作,将算法集成到产品中,支撑金融业务场景的迭代优化; 3. 负责某一细分领域的深入算法研究,包括但不限于基础模型开发、对齐研究、推理优化、SFT训练及Agent智能体开发; 4. 设计和开发基于大语言模型(LLM)的智能Agent,优化其在金融场景中的任务规划、工具调用及自主决策能力; 5. 维护相关研究和业务方向的基准(代码、数据、Prompt/Instruction等),将创新算法沉淀为论文、技术报告或专利。

作为项目的核心成员,你将不仅仅是执行任务,更是与我们一同探索未知。 具体职责包括: 前沿探索: 追踪并复现NeurIPS, ICML, ICLR, CVPR等顶会中关于多模态、Agentic AI、强化学习等方向的最新研究成果。 算法实现: 参与设计与实现创新的多模态融合、任务规划、工具学习、记忆与反思等核心算法模型。 实验与分析: 设计并执行大规模的AI实验,通过严谨的数据分析来验证假设、评估模型性能,并提出富有洞见的改进方向。 系统构建: 参与构建和优化项目的数据集、评测基准(Benchmark)以及Agent的执行环境。 思想碰撞: 与团队成员紧密合作,积极参与每周的技术讨论会和头脑风暴,贡献你的奇思妙想。