
商汤MIG-大模型算法研究员
任职要求
学历背景:计算机科学与技术、电子信息工程、数学、统计学、人工智能等相关专业硕士及以上学历,优秀博士优先。 技术基础: --扎实掌握深度学习、机器学习核心理论(如神经网络结构、优化算法、正则化方法等),熟悉大模型相关技术原理(如 Transformer、Self-Attention、预训练范式等)。 --熟练使用至少一种深度学习框架(PyTorch/TensorFlow),具备丰富的模型开发与调试经验;熟悉分布式训练框架(如 Megatron-LM、DeepSpeed 等)者优先。 --具备良好的编程能力,熟练掌握 Python/C++ 等编程语言,熟悉 Linux 操作系统及 Shell 脚本开发。 项目经验: -有大语言模型(LLM)、多模态大模型(如 Intern系列、Qwen 系列、LLaMA 系列等)预训练、微调、强化学习后训练,相关项目经验者优先。 -参与过百亿级及以上参数大模型落地项目,或在垂直领域(如金融、医疗、教育、工业等)多智能体框架开发经验者;RAG相关项目(多模态RAG,GraphRAG)开发经验丰富者优先。 -有自然语言处理(NLP)、计算机视觉(CV)、语音处理等相关领域顶会论文(如 NeurIPS、ICML、ICLR、ACL、CVPR 等)发表或顶赛获奖经历者优先。 能力素质: -具备较强的问题分析与解决能力,能独立应对大模型研发过程中的技术难点。 -拥有良好的创新思维与学习能力,对大模型领域技术发展有敏锐的洞察力。 -具备优秀的沟通协作能力与团队合作精神,能高效推进跨团队项目落地。 -工作态度严谨负责,具备较强的抗压能力,能适应快速迭代的研发节奏。
工作职责
1. 负责大语言模型、多模态大模型(文本、图像、语音等)的核心算法研发,包括模型 SFT微调、强化学习后训练、推理优化等关键环节,持续提升模型的效果、效率与稳定性。 2. 跟踪国内外大模型领域的前沿技术(如 Transformer 架构改进、多模态融合技术等),并结合业务场景进行技术调研与创新落地。 3. 针对具体业务需求(如智能客服、内容生成、代码辅助等),设计训练数据处理与清洗、大模型微调、强化学习后训练方案,解决实际业务问题。 4. 通用智能体框架设计与开发,智能体虚拟环境搭建,智能体基座模型的SFT后训练和强化学习后训练。 5. 与工程开发、产品设计等团队紧密协作,推动大模型技术从研发到产品化的全流程落地,输出技术文档与方案说明。

1. 深度探索AI以及视觉前沿算法,实现其在移动端的落地,确保算法在实际应用场景中的卓越表现。 2. 算法包括,检测识别跟踪,姿态估计,分割,深度估计,多帧融合、降噪、暗光增强、去模糊、HDR、超分辨率、GAN 图像生成,大语言模型和Diffusion图像视频生成技术。 3. 针对项目中出现的问题,精准设计算法解决方案,严谨地进行实现与验证,快速迭代并完成量产。 4. 承担AI算法的研发任务,包括但不限于算法的创新、改进与优化,以满足不同业务场景的需求。

1. 负责端侧AI 模型的优化、部署与性能调优,包括但不限于计算机视觉模型与大模型(LLM、VLM等)。 2. 基于不同端侧芯片(NPU、GPU、DSP、FPGA 等)进行模型适配和部署,实现高性能、低功耗推理。 3. 研究与实现模型压缩、量化、剪枝、蒸馏等技术,提高模型在端侧的运行效率与内存利用率。 4. 跟踪前沿算法与端侧硬件技术发展,探索新型架构与优化方法。 5. 与算法、芯片、软件团队紧密协作,完成从模型训练到端侧落地的全链路优化。

AI后端开发工程师的核心任务是为AI能力构建稳定、高效且可扩展的后台服务,确保智能应用顺畅运行。其主要工作包括: 1.系统架构设计与优化:参与设计高并发、低延迟、高可用的后端系统架构以支撑AI服务。运用微服务、容器化(Docker/K8S)、消息队列(Kafka/RabbitMQ)、缓存(Redis) 等技术,并优化数据库(如MySQL、MongoDB、向量数据库)性能 2.数据处理与管道构建:构建和维护数据管道,支持海量数据的采集、清洗、存储与处理,为模型训练和优化提供支持,有时需设计数据闭环系统 3.全流程开发与协作:参与从需求分析、设计、编码、测试到部署运维的全流程。需与算法工程师、前端工程师、产品经理等紧密协作,确保项目顺利交付 4.技术攻坚与创新:解决模型部署和运行中的技术难题(如资源瓶颈、轻量化),探索和引入前沿技术(如大模型服务化、多模态、边缘计算)以提升产品竞争力