
商汤26届AI领航员-研究院-大模型算法研究员(模型训练)
任职要求
1. 具有丰富大模型训练实际经验,熟练使用DeepSpeed,Megatron-Lm 等相关训练工具; 2. 具有良好的计算机体系结构基础和代码优化能力; …
工作职责
1. 负责大模型算法框架的研发,整体提升算法框架训练效率,跟进最近的训练技术; 2. 负责探索MOE、RLHF 等相关对齐技术,提升模型的最终效果; 3. 负责多模态模型和Function Call 模型的联合训练,整体优化多模态模型和语言模型联合训练。

1. 多模态理解与生成算法研究: 紧跟领域前沿,深入研究多模态(图像、文本、视频)的理解与生成统一的核心算法; 2. 模型设计与优化: 负责多模态理解与生成模型的设计、训练、评估和优化,不断提升模型性能和泛化能力; 3. 创新技术探索: 探索新的预训练和后训练范式,发现和解决大模型靠单一模态难以解决的问题。

1. 负责模型压缩算法的研发和实现,包括但不限于模型量化、剪枝、蒸馏等; 2. 负责业务模型在多种场景及对应各异的芯片上的压缩精度提升和保持,包括AIGC(LLM / Stable Diffusion)模型,自动驾驶模型、手机端侧模型等; 3. 负责开发和维护LLM量化部署工具链,调研、复现业界最新的算法,集成工具,并在实际业务中落地, 助力大模型在各个产品线中的应用; 4. 通过分析模型与部署硬件特点,使用软硬结合的优化方案提升模型的速度与精度表现,提升模型压缩能力上限。

1.探索大模型后训练的技术边界,持续提升模型的通用人工智能能力; 2.研究强化学习,过程监督等方法在提升模型能力上的最前沿技术; 3.研究长思维链推理中的核心问题,如幻觉抑制,长度压缩等。

1. 负责实现和迭代自然语言处理相关算法,支撑企业数字化业务中的自然语言理解和生成需求,例如信息抽取、文档分析、检索问答、对话交互等; 2. 与工程团队协作,将算法集成到产品中,支撑金融业务场景的迭代优化; 3. 负责某一细分领域的深入算法研究,包括但不限于基础模型开发、对齐研究、推理优化、SFT训练及Agent智能体开发; 4. 设计和开发基于大语言模型(LLM)的智能Agent,优化其在金融场景中的任务规划、工具调用及自主决策能力; 5. 维护相关研究和业务方向的基准(代码、数据、Prompt/Instruction等),将创新算法沉淀为论文、技术报告或专利。