logo of nio

蔚来实习-多模态大模型算法工程师(语音方向)

实习兼职算法地点:上海 | 北京状态:招聘

任职要求


1. 计算机科学、电子工程、信号处理、机器学习等相关专业的硕士或博士
2. 有多模态大模型、语音大模型、语音端到端对话的实战经验者优先;对qwen-omni等开源大模型熟悉者优先
3. 具备扎实的数学和算法基础,熟悉深度学习机器学习的基本理论和方法
4. 熟练掌握PythonC++等编程语言,具备良好的编码能力
5. 有PyTorchtensorflow深度学习框架使用经验者优先
6. 良好的分析问题和解决问题的能力,具备较强的自学能力和团队合作精神
7. 具备良好的英语阅读和写作能力,能阅读和撰写相关技术文档和论文

工作职责


1. 参与多模态大模型语音方向的研发工作,包括但不限于语音识别、音频理解、声音事件检测、语音端到端对话等
2. 负责多模态大模型前沿算法的探索
3. 负责多模态大模型相关数据的清洗、扩增,提升数据质量
4. 参与多模态大模型的训练、优化和测试,提升模型的性能和稳定性
5. 协助团队完成相关项目的开发和落地,实现技术成果的转化
包括英文材料
机器学习+
大模型+
算法+
深度学习+
Python+
C+++
PyTorch+
TensorFlow+
相关职位

logo of kuaishou
实习J1010

1. 负责语音多模态大模型的研究与开发,包括Pretrain、SFT、RLHF等; 2. 负责语音处理算法的研究与开发,支撑大模型训练对数据的需求; 3. 负责大模型技术在快手业务中的落地,并探索新玩法或业务创新; 4. 负责跟踪国内外前沿技术的发展和实践,保持团队技术的敏锐性。

更新于 2025-05-08
logo of kuaishou
实习J1007

1、了解多模态内容生成相关算法,如Diffusion Models 、 GAN 、 VAE 、 Autoregressive Models等,包括但不限文本/图像/视频生成,解决生成质量、多样性、可控性、采样效率、可编辑等问题; 2、了解端到端多模态生成式大模型的框架设计、训练与调优,构建基于生成模型的AI系统,推动多模态AIGC在快手各业务场景的产品化落地。

更新于 2025-05-15
logo of bytedance
社招A259606

1、支持端到端语音多模态大模型技术在字节跳动公司内外丰富的业务场景落地,解决落地过程中的前沿问题,持续优化落地效果; 2、探索前沿的多模态技术,专注语音多模态大模型的前沿技术和算法效果,追求和探索业界最前沿算法,包括但不限于语言、音乐、语音、音频的生成与理解等; 3、深入调研和关注音频/NLP/多模态等方向的前沿技术。

更新于 2025-03-28
logo of horizon
实习算法序列

1.参与多模态大模型(VLM/VLA)的研发与优化,探索图像、文本、语音等跨模态信息的融合方法,以及在自动驾驶领域的应用; 2.研究并实现前沿的视觉技术(如Diffusion Model、GAN、VAE等),推动技术落地; 3.配合团队完成算法设计、训练、调优及部署,提升模型性能与工程化能力; 4.跟踪领域前沿研究,撰写技术文档和实验报告,参与论文发表或专利申请。

更新于 2025-05-29