logo of mi

小米Miclaw-大模型语音方向实习生

实习兼职地点:北京状态:招聘

任职要求


任职要求:
1、在校的本硕博同学,CS/EE/数学相关专业;
2、优秀的软件工程素养,精通PythonC/C++程序设计;
3、熟悉TensorFlow或PyTorch等深度…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.聚焦语音/音频生成大模型技术研究,涵盖多模态融合,提升长序列建模能力与实时性。
2.研发风格与情感可控技术,构建语义-时序-声学等多级可控接口,支持音色迁移与交互式编辑。
3.落地助手、无障碍等小米应用场景,发表顶会论文1-2篇,申请专利2-3项。
包括英文材料
Python+
C+
C+++
TensorFlow+
还有更多 •••
相关职位

logo of mi
实习

我们诚邀对计算机视觉、图形学与多模态技术有浓厚兴趣的实习生加入。您将参与前沿的图像生成、视觉理解、机器人动画与导航等核心算法的研究与开发,推动技术从模型创新到在手机影像、机器人及大模型等场景中的实际应用。 核心职责 1.参与前沿视觉与图形算法的研究与实现,包括多模态大模型、图像生成与理解、机器人角色动画与端到端导航等方向。 2.负责相关算法的模型设计、训练、评估及优化,涉及模型结构创新、训练策略改进及(针对移动端或机器人的)性能优化。 3.将研发的算法应用于具体产品场景,如手机相机影像功能、机器人物理仿真与控制等,并推动其部署与迭代。 4.跟踪领域最新学术动态,进行关键技术复现与创新,参与技术成果的总结与沉淀。

更新于 2026-03-26北京
logo of mi
实习

1、深度参与多模态核心算法与模型的研发工作,覆盖图像/视频理解与生成、3D内容创建、声学信号(语音/音频)处理,以及跨模态(文本-视觉/听觉等)对齐、融合等关键方向; 2、主导部分子任务的设计与落地,参与实验方案制定、数据挖掘与预处理、模型训练及效果验证等全流程科研环节。参与多模态核心算法的设计与优化,针对模型精度、推理速度、显存占用等关键指标开展针对性调优;深入分析实验数据,提炼核心问题并输出创新性优化方案,助力团队突破技术瓶颈,保障核心产品的技术领先性。 3、独立或组队开展多模态、NLP、CV领域顶会(如NeurIPS/ICML/ICCV/ECCV/ACL等)及前沿开源项目的深度调研,聚焦领域核心难点与创新方向; 4、完成高质量调研报告,包含技术原理拆解、性能对比分析及落地可行性评估,推动前沿技术在团队核心项目中的转化与应用。负责核心代码的开发与维护、科研论文的撰写、技术专利的素材整理等工作,主动贡献创新性科研思路。

更新于 2026-03-26北京