
商汤26届AI领航员-研究院-大语言模型算法研究员
任职要求
1.拥有计算机科学或人工智能相关领域的硕士或更高学位,对大语言模型技术抱有浓厚兴趣; 2.具备NLP业务经验,或有参与NLP领域学术比赛的经历,或在NLP、人工智能相关的顶级会议或期刊上发表过论文; 3.精通Python编程语言,对深度学习框架Pytorch有深入理解,包括其中高级特性和接口,了解常见的性能优化和质量保障方法,并具备利用这些技能进行高效模型评测的能力; 4.具备出色的数据分析和问题解决技巧; 5.具有强烈的责任心,良好的沟通技巧和团队协作能力。
工作职责
1.参与大规模语言模型的训练工作,通过数据质量提升、模型架构创新及训练算法改进等核心手段等手段,持续突破语言模型的性能; 2.基于业务需求设计数据解决方案,包括专业数据生产、合成和集成,确保交付模型能实质性促进业务性能提升; 3.参与模型评测的全流程工作,针对业务场景构建特定的评测集,实现模型能力的精准量化与持续优化; 4.针对大规模数据质量问题,研发高效数据清洗、验证及合成技术,打造行业领先的高价值数据集; 5.追踪全球大模型技术前沿,快速实现创新技术的工程化落地,保持团队技术领先优势。

1.探索大模型后训练的技术边界,持续提升模型的通用人工智能能力; 2.研究强化学习,过程监督等方法在提升模型能力上的最前沿技术; 3.研究长思维链推理中的核心问题,如幻觉抑制,长度压缩等。

1. 负责实现和迭代自然语言处理相关算法,支撑企业数字化业务中的自然语言理解和生成需求,例如信息抽取、文档分析、检索问答、对话交互等; 2. 与工程团队协作,将算法集成到产品中,支撑金融业务场景的迭代优化; 3. 负责某一细分领域的深入算法研究,包括但不限于基础模型开发、对齐研究、推理优化、SFT训练及Agent智能体开发; 4. 设计和开发基于大语言模型(LLM)的智能Agent,优化其在金融场景中的任务规划、工具调用及自主决策能力; 5. 维护相关研究和业务方向的基准(代码、数据、Prompt/Instruction等),将创新算法沉淀为论文、技术报告或专利。

1. 负责大模型算法框架的研发,整体提升算法框架训练效率,跟进最近的训练技术; 2. 负责探索MOE、RLHF 等相关对齐技术,提升模型的最终效果; 3. 负责多模态模型和Function Call 模型的联合训练,整体优化多模态模型和语言模型联合训练。

前沿探索: 跟踪和研究多模态学习、大语言模型(LLMs)、视觉基础模型等领域的最新进展(如 Transformer、Diffusion Models、VLP等)。 模型构建: 参与多模态基础模型的核心架构设计与实现,探索如何高效融合文本、图像、音频等多源信息。 能力攻坚: 重点攻克并提升模型在特定维度的基础能力,包括但不限于: 视觉文本理解: 提升复杂场景下的文字识别(Scene Text Recognition)与光学字符识别(OCR)的精度和鲁棒性。 布局与结构感知: 让模型理解文档、网页、UI界面的布局结构,实现精准的信息提取与问答。 空间关系推理: 训练模型理解图像/视频中物体之间的方位、遮挡、从属等空间关系。 实验与优化: 设计和执行大规模的深度学习实验,对模型进行训练、评估和迭代优化,并分析实验结果,沉淀技术方案。 协作共创: 与团队中的顶尖科学家和资深工程师紧密合作,共同解决研究与工程中的挑战。