小米顶尖应届-通用音源分离算法工程师-手机
任职要求
1. 具有计算机科学、音频/语音/多模态信号处理,语音与语言理解,人工智能等相关领域博士或硕士以上学历; 2. 具有音频分离、语音分离和音乐分离等领域专业背景,在语音顶级会议和重要期刊(ICASSP、INTERSPEECH、IEEE等)上发表过相关高质量论文者优先;在音频和语音类算法竞赛(CHiME、AEC/DNS Challenge、ASS、CMIREX、SiSEC、ASSC、VoxSRC、DCASE等)中获得较高名次者优先; 3. 熟悉音频和语音大模型,具有大模型训练经验者优先; 4. 熟悉常用深度学习框架(Pytorch/TensorFlow),具有推理框架(ONNX/TFLite/PyTorch Mobile/MNN/NCNN等)使用经验者优先; 5. 精通Python/C和C++语言,熟悉linux系统,有产品落地开发经验优先。
工作职责
1. 设计和实现先进的音频处理算法,包括不限于声音分离、增强和提取,声音修复,声音编辑和后处理等; 2. 设计和开发声音大模型,包括但不限于模型预训练和finetune; 3. 负责音频数据的预处理、标注和分析,确保数据质量满足模型训练需求; 4. 设计和完成实验,评估模型性能,对结果进行分析并持续提升性能; 5. 撰写技术文档、技术专利和研究报告; 6. 跟踪最新的研究趋势和技术进展,将创新技术应用到项目中。 【课题名称】 通用音源分离算法实现下一代沉浸智能通话系统预研 【课题内容】 基于声音大模型的通用音源分离系统的设计和开发,包括声音基座大模型、通用音源分离、语音分离和音乐分离相关算法。
1.承担自动驾驶通用算法的前沿研发工作,运用算法-硬件协同设计、网络结构深度优化、训练流程加速、模型量化压缩等先进通用技术,为业务团队精心打造并提供高效的训练部署最优方案与实践经验,助力业务高效推进。 2.专注于模型轻量化结构的创新设计与性能雕琢,研发在效果、模型大小、计算量以及功耗等综合性能方面均位居业界前列的预训练模型,引领技术发展潮流。 3.投入模型加速领域的研发,涵盖模型量化、模型压缩、模型剪枝、模型蒸馏、网络架构搜索与创新设计等关键方向,确保模型在效果与运行速度上达到最佳平衡,满足车端需求。 4.开展模型架构的深度探索,包括但不限于Scaling Law、MoE、Transformer、高效训推框架以及基座模型训练等前沿领域,开拓技术边界,为自动驾驶技术突破提供核心支持 。 【课题名称】 基础算法研发 【课题内容】 探索基础算法,为自驾模型升级、迭代,压缩算法迭代周期,提供基础算法和平台。
1. 参与通用人形机器人的硬件架构设计,需要驱动系统在极限工况下兼具动力性、能效性与结构紧凑性; 2. 通过仿真为核心驱动的“硬件系统设计、评估,实现从动作仿真,负载分析→硬件选型→结构优化的完整闭环,赋能机器人驱动系统架构创新。 【课题名称】 人形机器人仿真驱动硬件设计的方法研究 【课题内容】 面向硬件设计的人形机器人仿真验证方法研究。通过本课题研究,将构建一套仿真先行、数据驱动、模型闭环的人形机器人设计方法论,显著提升人形机器人系统开发的效率、准确性和性能降。为未来高性能机器人研发提供理论依据与工程方法支撑。
1. 负责视觉通用3D基础模型的研究及训练; 2. 实时3D重建算法的研究和开发; 3. 对3D开集检测的研究和开发; 4. 对重建的3D空间进行高阶拓扑抽象任务的研究; 5. 基于历史信息对未来帧预测的研究; 6. 负责相关领域前沿学术成果的调研,形成技术文档。 【课题名称】 空间智能 【课题内容】 纯视觉3D空间认知,同时具备室内和室外的泛化性,可在线重建3D空间(满足任意数量视角相机配置以及任意时序长度),任意前景物体的3D位置检测,具备空间拓扑的高阶抽象,以及对未来帧中空间拓扑的预测能力。