logo of mi

小米顶尖应届-音频算法工程师-可穿戴

校招全职地点:北京状态:招聘

任职要求


1. 博士学历,音频声学相关专业;
2. 有音频算法开发相关经验;
3. 对金耳朵和音效调试有所了解。

工作职责


1. 针对当前调音工具DRC/Limiter等不足,针对开放式耳机开发专门的调音工具
针对耳机的音效的特点,扩展声场和音效渲染;
2. 空间音频的开发,包含3D效果和个性化空间音频的开发;
3. 金耳朵调音。

【课题名称】
可穿戴音频音效
【课题内容】
针对耳机类产品特别是开放式耳机的音效调音工具和算法进行相关研究,提出更好的调音方案;空间音频效果的提升研究。
包括英文材料
学历+
算法+
相关职位

logo of mi
校招

将围绕多模态(文本、图像、音频、视频)理解和生成统一的基座大模型的数据、模型结构、统一建模方式、训练与推理优化、深度推理等核心问题展开研究,具体研究内容包括: 1. 多模态(文本、图像、音频、视频)数据的收集、合成及数据策略,提升质量、多样性、可扩展性; 2. 探索多模态理解与生成统一的建模方式; 3. 多模态模型的模型结构的设计与优化,高效的大规模分布式训练和推理系统(云侧和端侧); 4. 研究多模态模型的深度推理范式。 【课题名称】 多模态生成与理解统一模型 【课题内容】 突破多模态统一建模方式的技术瓶颈,训练理解与生成统一的多模态基座大模型,实现高效训练与推理系统。

更新于 2025-05-22
logo of alibaba
实习淘天集团2026

T-Star计划是阿里巴巴淘天集团顶尖人才招聘和培养项目,继承“阿里星〞的使命与愿景,面向全球招募顶尖技术人才。首次开设实习生专项招聘,面向2025年10月后毕业的校优秀技术同学。期待你们在淘天,通过极具挑战的前沿课题与亿级规模的海量数据、应用场景,探索和实践最前沿的Al技术,在有价值的业务场景落地技术成果。 如果你,期望在阿里巴巴生态的广阔场景中,借助海量用户数据和先进的技术能力,打造千人千面的个性化数字人形象生产系统,为亿级用户提供高度定制化的虚拟形象服务; 如果你,期望参与最前沿的高表现力肢体表情驱动技术研发,通过先进的动作捕捉、表情合成和实时渲染技术,实现数字人自然流畅的表情和肢体动作,赋予数字人更真实的情感表达能力; 如果你,期望攻克数字人生成中的核心技术难题,例如基于扩散模型的高质量数字人生成、材质与纹理的高度还原、服饰动态效果的真实模拟,以及在复杂交互场景中保持人物和环境的一致性和自然度; 如果你,期望深入探索多模态统一大模型的应用,将图像、文本、音频等多模态信息融合,构建具备精细理解能力和强大生成能力的数字人系统,解决业界尚未突破的技术瓶颈; 加入我们,你的成果将直用于电商领域的核心场景,直播,客服,导购,影响数以亿计的用户,推动电商领域的数字化创新,并带来巨大的商业和社会价值。让我们一起定义未来数字人的无限可能! T-Star实习可以带给你什么? ꔷ ①加入前沿技术探索队伍,参与顶级课题研究,有机会实现工业界项目落地。②跟企业大牛导师/学术界名导一起做有价值的课题。③丰富的技术资源、海量的数据与优秀的团队助力发paper ꔷ 投递T-Star实习生,提前解锁淘天顶级技术岗位,实习与T-Star正式批/应届秋招投递不冲突。拿到T-Star意向书的同时,将获得直通正式批次终面的机会;参与T-Star实习且表现优秀的同学,提供T-Star转正Offer。

更新于 2025-05-07
logo of alibaba
实习淘天集团2026

T-Star计划是阿里巴巴淘天集团顶尖人才招聘和培养项目,继承“阿里星〞的使命与愿景,面向全球招募顶尖技术人才。首次开设实习生专项招聘,面向2025年10月后毕业的校优秀技术同学。期待你们在淘天,通过极具挑战的前沿课题与亿级规模的海量数据、应用场景,探索和实践最前沿的Al技术,在有价值的业务场景落地技术成果。 在这里,你将参与贡献大型电商场景下与音视频体验和成本相关的一系列研发工作;

 在这里,你将参与视频编码(包括但不限于HEVC/VVC)优化:通过基于信号处理和机器学习的快速编码决策、数据结构、并行框架设计,优化编码速度,同时在有竞争力的视频编码内核基础上,探索基于语义的内容感知编码优化,深度学习编码,AIGC编码等前沿课题,在保障画质体验的前提下,尽可能节省带宽;

 在这里,你将参与海量图像和视频的增强修复工作:运用前沿技术,包括但不限于模型结构优化、数据仿真和增强策略优化、知识蒸馏以及模型压缩,在限定带宽环境对任意失真的视频进行高效处理,力求最好的画质。同时,跟踪业界最新进展和技术趋势(包括AIGC)并融入特定的场景,提出创新方案,帮助平台提供逼近广电级别的视频画质;

 在这里,你将参与视频编码与处理联合优化:在标准编码框架的基础上,借助AI领域的新技术成果来研究视频信号的表征、编码与处理,将视频前后处理与编码联合优化,提升端到端压缩效果; 在这里,你将参与美颜等视频美化技术的研究工作,包括人脸检测、关键点、肤色美白、面部塑形、化妆效果模拟等。这些技术将应用于直播和短视频等多样化场景,并确保其在真实视频场景的有效整合。你还将专注于基于3D人脸建模和AI算法的智能美颜技术,推动这些技术的大规模落地; 在这里,你将参与UGC视频生产剪辑依赖的多类当下最前沿的图像视频生成与编辑,包括图像风格化,人像分割与实例分割,人脸属性,图像可控生成,图像视频化等,为视频剪辑提供更丰富的素材和更多的玩法;

 在这里,你将有机会参与最前沿的音视频质量评价算法工作,包括无参考的视频质量评价,人脸美学评价,音频质量评价,为多媒体算法的迭代和平台音画质的体验提供基础工具;
 在这里,你将帮助淘宝直播等大型的视频传输场景设计QoS算法,追求超低延时、极速播放等用户体验,并支持各种弱网环境下的最优的视频流畅度和优雅的画质降级。 T-Star实习可以带给你什么? ꔷ ①加入前沿技术探索队伍,参与顶级课题研究,有机会实现工业界项目落地。②跟企业大牛导师/学术界名导一起做有价值的课题。③丰富的技术资源、海量的数据与优秀的团队助力发paper ꔷ 投递T-Star实习生,提前解锁淘天顶级技术岗位,实习与T-Star正式批/应届秋招投递不冲突。拿到T-Star意向书的同时,将获得直通正式批次终面的机会;参与T-Star实习且表现优秀的同学,提供T-Star转正Offer。

更新于 2025-05-07
logo of mi
校招

1. 跟进行业空间音频前沿技术发展趋势; 2. 参与空间音频技术规划; 3. 负责空间音频算法开发和技术预研。 【课题名称】 空间音频算法研发 【课题内容】 1. 空间声拾取及后处理技术研究; 2. 空间声场建模与主动控制技术研究; 3. 空间音频质量评测模型研究。

更新于 2025-06-25