小米Miclaw-大模型语音方向实习生
实习兼职地点:北京状态:招聘
任职要求
任职要求: 1、在校的本硕博同学,CS/EE/数学相关专业; 2、优秀的软件工程素养,精通Python、C/C++程序设计; 3、熟悉TensorFlow或PyTorch等深度…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1.聚焦语音/音频生成大模型技术研究,涵盖多模态融合,提升长序列建模能力与实时性。 2.研发风格与情感可控技术,构建语义-时序-声学等多级可控接口,支持音色迁移与交互式编辑。 3.落地助手、无障碍等小米应用场景,发表顶会论文1-2篇,申请专利2-3项。
包括英文材料
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
C+
https://www.freecodecamp.org/chinese/news/the-c-beginners-handbook/
本手册遵循二八定律。你将在 20% 的时间内学习 80% 的 C 编程语言。
https://www.youtube.com/watch?v=87SH2Cn0s9A
https://www.youtube.com/watch?v=KJgsSFOSQv0
This course will give you a full introduction into all of the core concepts in the C programming language.
https://www.youtube.com/watch?v=PaPN51Mm5qQ
In this complete C programming course, Dr. Charles Severance (aka Dr. Chuck) will help you understand computer architecture and low-level programming with the help of the classic C Programming language book written by Brian Kernighan and Dennis Ritchie.
C+++
https://www.learncpp.com/
LearnCpp.com is a free website devoted to teaching you how to program in modern C++.
https://www.youtube.com/watch?v=ZzaPdXTrSb8
TensorFlow+
https://www.youtube.com/watch?v=tpCFfeUEGs8
Ready to learn the fundamentals of TensorFlow and deep learning with Python? Well, you’ve come to the right place.
https://www.youtube.com/watch?v=ZUKz4125WNI
This part continues right where part one left off so get that Google Colab window open and get ready to write plenty more TensorFlow code.
还有更多 •••
相关职位
实习
我们诚邀对计算机视觉、图形学与多模态技术有浓厚兴趣的实习生加入。您将参与前沿的图像生成、视觉理解、机器人动画与导航等核心算法的研究与开发,推动技术从模型创新到在手机影像、机器人及大模型等场景中的实际应用。 核心职责 1.参与前沿视觉与图形算法的研究与实现,包括多模态大模型、图像生成与理解、机器人角色动画与端到端导航等方向。 2.负责相关算法的模型设计、训练、评估及优化,涉及模型结构创新、训练策略改进及(针对移动端或机器人的)性能优化。 3.将研发的算法应用于具体产品场景,如手机相机影像功能、机器人物理仿真与控制等,并推动其部署与迭代。 4.跟踪领域最新学术动态,进行关键技术复现与创新,参与技术成果的总结与沉淀。
更新于 2026-03-26北京
实习
1、深度参与多模态核心算法与模型的研发工作,覆盖图像/视频理解与生成、3D内容创建、声学信号(语音/音频)处理,以及跨模态(文本-视觉/听觉等)对齐、融合等关键方向; 2、主导部分子任务的设计与落地,参与实验方案制定、数据挖掘与预处理、模型训练及效果验证等全流程科研环节。参与多模态核心算法的设计与优化,针对模型精度、推理速度、显存占用等关键指标开展针对性调优;深入分析实验数据,提炼核心问题并输出创新性优化方案,助力团队突破技术瓶颈,保障核心产品的技术领先性。 3、独立或组队开展多模态、NLP、CV领域顶会(如NeurIPS/ICML/ICCV/ECCV/ACL等)及前沿开源项目的深度调研,聚焦领域核心难点与创新方向; 4、完成高质量调研报告,包含技术原理拆解、性能对比分析及落地可行性评估,推动前沿技术在团队核心项目中的转化与应用。负责核心代码的开发与维护、科研论文的撰写、技术专利的素材整理等工作,主动贡献创新性科研思路。
更新于 2026-03-26北京