logo of sensetime

商汤研究院-大语言模型训练框架工程师

社招全职算法工程地点:北京 | 成都 | 上海状态:招聘

任职要求


1.  本科及以上学历,计算机科学、电子工程或相关领域毕业;
2.  热爱人工智能领域,对深度学习有扎实的理论基础和实践经验;
3.  对大语…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责大语言模型训练相关的各项任务,包括构建自研大语言模型训练框架,针对实际业务对大语言模型进行SFT 训练等;
2. 探索大语言模型算法方向,包括不限于多模态相关的模型探索。
包括英文材料
学历+
深度学习+
相关职位

logo of vivo
校招

vivo AI研究院致力于研发业界领先的人工智能技术,通过AI技术创新持续为全球5亿+vivo用户带来无处不在的惊喜和激动人心的智慧体验。 1、围绕多模态大模型的前沿研究,聚焦跨模态融合、知识推理与表达等核心问题,推动视觉、语音、文本等多模态智能体的理论和算法创新; 2、主导大模型端侧化与高效部署技术攻关,聚焦模型轻量化算法:量化、压缩、剪枝、蒸馏,以及模型推理加速、端侧模型训练等前沿课题,推动大模型在移动终端和边缘设备的实际落地; 3、深入探索强化学习与奖励模型的新范式,致力于提升泛化性和自学习能力,推动基于自博弈(Self-Play)的下一代智能体训练方法; 4、推动生成-理解统一建模、多模态世界模型构建等创新方向,实现虚拟与现实环境中的多模态交互与理解; 5、参与国际顶级学术会议/期刊论文发表,推动前沿技术在实际产品中的转化,提升公司在AI领域的学术与产业影响力。

更新于 2025-06-14深圳|杭州
logo of sensetime
校招算法研究

1.负责开发和研究模型自我优化与进化的算法,通过引入先进的自适应学习技术和进化策略,实现模型在面对新数据时的自动调整和优化; 2.设计和实施自我进化机制,包括但不限于在线学习、持续学习和元学习策略,以提升模型对新环境和新任务的适应性; 3.通过周期性的模型评估和反馈循环,确保模型在实际应用中的性能持续提升,同时解决模型过时的问题; 4.负责大模型训练数据生成及管理,包括合成数据生成和真实数据的收集与清洗; 5.负责建立和维护数据处理流程,以提高数据质量和训练效率; 6.负责开发和优化数据监控系统,进行日志数据的智能分析,及时发现并解决数据处理过程中的问题。 7.与数据科学团队合作,确保模型进化策略与数据获取、处理和分析策略的一致性,从而优化整个模型的学习效率和效果。

更新于 2025-08-21北京|上海|深圳
logo of sensetime
校招算法研究类

前沿探索: 跟踪和研究多模态学习、大语言模型(LLMs)、视觉基础模型等领域的最新进展(如 Transformer、Diffusion Models、VLP等)。 模型构建: 参与多模态基础模型的核心架构设计与实现,探索如何高效融合文本、图像、音频等多源信息。 能力攻坚: 重点攻克并提升模型在特定维度的基础能力,包括但不限于: 视觉文本理解: 提升复杂场景下的文字识别(Scene Text Recognition)与光学字符识别(OCR)的精度和鲁棒性。 布局与结构感知: 让模型理解文档、网页、UI界面的布局结构,实现精准的信息提取与问答。 空间关系推理: 训练模型理解图像/视频中物体之间的方位、遮挡、从属等空间关系。 实验与优化: 设计和执行大规模的深度学习实验,对模型进行训练、评估和迭代优化,并分析实验结果,沉淀技术方案。 协作共创: 与团队中的顶尖科学家和资深工程师紧密合作,共同解决研究与工程中的挑战。

更新于 2025-08-20北京|上海|深圳
logo of antgroup
社招3年以上技术-研究

我们团队将致力于探索新型LLM架构的训练与推理加速技术,推动模型结构与算法层面的创新,全面提升LLM的效率与性能。 1. 研发Diffusion LLM的高效训练与推理框架,实现其推理性能1000倍的提升,突破现有扩散模型在语言生成中的效率瓶颈 2. 和LLM算法研究员合作,通过算法和系统的co-design,加速现有LLM的训练和推理 3. 针对新型LLM优化关键算子与分布式并行计算策略,显著降低其训练与推理成本 4. 开发面向LLM算子与并行计算的自动化优化框架,为算法研究人员提供一站式的自动优化解决方案,显著提升模型结构的开发效率与系统性能。

更新于 2025-12-17北京|上海|杭州