logo of mi

小米顶尖应届-语音生成大模型算法工程师-大模型

校招全职地点:北京状态:招聘

任职要求


任职要求:
1. 硕士及以上学历,CS/EE/数学相关专业;
2. 优秀的软件工程素养,精通PythonC/C++程序设计;
3. 熟悉TensorFlow或PyTorch等深度学…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 聚焦语音/音频生成大模型技术研究,涵盖多模态融合,提升长序列建模能力与实时性;
2. 研发风格与情感可控技术,构建语义-时序-声学等多级可控接口,支持音色迁移与交互式编辑;
3. 落地助手、无障碍等小米应用场景,发表顶会论文一篇以上,申请专利两项以上。

【课题名称】
语音生成大模型研究与应用
【课题内容】
研究语音或音频生成与编辑大模型相关技术,优化生成效果及可控性,平衡效率与效果,探索前沿的声音生成技术方案等。
包括英文材料
学历+
Python+
C+
C+++
还有更多 •••
相关职位

logo of mi
校招

1. 大规模语音模态预训练 研究如何用千万小时级别语音数据在百亿级别参数模型上进行高效预训练,有效提取与利用通用声学与语义特征,提升语言理解及语音生成的一致性和自然度; 2. 多语言语音理解与生成 研究跨语言语音数据的共享表示方法,提升语音模型对多语言、方言的适配能力; 3. 噪声环境及复杂声学场景下的处理能力 研究语音大模型在嘈杂、混响、远场等典型场景下的泛化性; 4. 探索高效语音信息压缩方法 研究语音模态压缩方法,以实现长时理解,并适配不同类型的设备(云侧和端侧)的部署需求。 【课题名称】 语音理解和生成大模型 【课题内容】 本课题拟围绕先进的语音理解与生成大模型,研发面向复杂场景的通用语音技术。项目将通过大规模语音数据预训练与强化学习方法,探索高鲁棒性、高自然度的语音理解与生成能力。

更新于 2025-05-22北京
logo of mi
校招

岗位描述: 1. 负责开发和维护新一代Kaldi开源生态(https://github.com/k2-fsa); 2. 基于新一代Kaldi,参与新型语音技术研究,与Daniel Povey合作发表论文; 3. 与小米语音团队合作,结合新一代Kaldi,为小米全平台设备(包括但不限于汽车、手机、智能音箱、智能穿戴等AIoT设备)打造智能语音算法。 【课题名称】 大模型背景下前沿语音技术研究 【课题内容】 1. 探索语音预训练技术; 2. 大模型背景下语音识别技术的升级与突破; 3. 语音生成技术。

更新于 2025-06-25北京
logo of mi
校招

1. 多模态感知融合:结合用户的语音、表情、手势姿态、眼动,以及汽车各种传感器状态,实现对模态输入的编码与解码; 2. 利用在线强化学习实现端云结合的大模型基座更新; 3. 基于大模型的生成能力,构建用户反馈行为序列; 4. 构造大模型在线主客观评估体系。 【课题名称】 基于大模型的意图监测 【课题内容】 通过在线强化学习(RL)、多模态感知理解生成技术,实现对用户意图的精准识别和响应。

更新于 2025-06-26北京
logo of amap
社招3年以上技术类-算法

团队介绍: 高德地图机器学习研发部是公司AI核心技术引擎,聚焦多模态大模型、视频生成与理解、图像编辑与生成等前沿领域。团队深耕人工智能技术落地,支撑亿级用户产品,同时长期投入前沿探索,在NeurIPS/ICLR/CVPR/ACL等顶会发表多篇论文,多项成果入选“最有影响力论文”榜单。我们拥有海量数据与算力资源,鼓励创新突破,诚邀你与顶尖算法专家并肩,共同定义AI的未来!如果你渴望挑战多模态与生成式AI的技术巅峰,在视频、图像、大模型的交叉领域实现突破,欢迎加入我们!团队的github页面是:https://github.com/AMAP-ML/ 我们提供 • 参与亿级用户产品的AI核心算法研发,见证技术直接赋能业务; • 与学术大牛和工业界专家共事,持续提升技术视野; • 顶配算力资源+开放创新氛围,支持前沿探索与顶会论文发表。 具体职责包括但不限于: 1. 视频生成:负责视频生成技术的前沿技术的研究,对AIGC的diffusion和auto-regressive技术有深入了解,在T2I/AIGCT2V/I2V上面有一定的研究,图文对齐,长视频生成等有一定的研究,做好视频生成在高德业务(广告,POI详情页等)中的进行落地。 2. 视频理解:能够使用和优化多模态大模型对用户上传的视频进行质量理解,标签,densecaption,视频summary等生成,作用到视频的搜索,广告,推荐等业务的落地。 3. 世界模型: 参与世界模型的构建,能够使用最新的视频生成技术,3D技术等构建符合人类物理规律的统一的世界模型,在高德的业务进行落地。 4. 紧跟技术前沿和技术沉淀,形成顶会论文和专利。

更新于 2026-01-23北京