
商汤算法研究实习生
任职要求
1、Master/PhD student in CS, AI, EE, Math, or related fields.
2、Strong deep learning coding background (eg, PyTorch/TensorFlow).
3、Experi…工作职责
1、Assist in the design, implementation, and optimization of next-gen multimodal models. 2、Collect, process, and build large-scale multimodal datasets. 3、Train, fine-tune, and evaluate VLMs, diffusion models, world models, and VLA. 4、Track the latest AI research trends and document findings. 5、Work on high-impact AI research with potential publications.

1. 算法研究与创新:调研和探索基于多模态大模型的 Agent 相关前沿机器学习、深度学习算法,参与构建和优化 Agent 算法基础模型。 2. 数据处理与分析:协助收集、整理用于训练 UI Agent 的数据,涵盖多种类型的 UI 界面截图、用户操作日志等,运用数据分析工具和方法,对数据进行深入分析,挖掘数据中的潜在模式和规律,为算法优化提供数据支持 3. 模型实现与测试:基于主流深度学习框架(如 PyTorch),将设计好的算法模型进行代码实现,参与模型的训练、调试与优化工作,提高模型性能。制定并执行模型测试方案,评估模型在模拟和真实 UI 场景下的表现,如任务完成率、操作准确性等指标,根据测试结果提出改进建议并实施优化。 4. 协作与沟通:与团队内的其他算法研究人员、工程师密切协作,共同推进项目进展,及时交流研究思路和技术难题,分享研究成果和经验。

1. 参与多模态语音交互场景下的语音理解、语音生成和语音交互大模型的算法研发、性能优化与落地实现; 2.参与数字人场景下的个性化实时情感对话语音合成、低资源音色克隆、语音识别、语音增强、语音检测、语种识别、声纹识别、说话人分割、变声、音乐生成等技术研发; 3.参与语音相关算法引擎的流式改造、推理优化、大并发低延迟云服务、私有化服务定制开发; 4.跟进学术界、行业最新的研究趋势,产出新的科研成果,并落地于实际产品。

1. 参与多模态语音交互场景下的语音理解、语音生成和语音交互大模型的算法研发、性能优化与落地实现; 2.参与数字人场景下的个性化实时情感对话语音合成、低资源音色克隆、语音识别、语音增强、语音检测、语种识别、声纹识别、说话人分割、变声、音乐生成等技术研发; 3.参与语音相关算法引擎的流式改造、推理优化、大并发低延迟云服务、私有化服务定制开发; 4.跟进学术界、行业最新的研究趋势,产出新的科研成果,并落地于实际产品。