理想汽车【智能空间】大模型算法专家-音频
任职要求
1. 音频信号处理、语音信号处理、机器学习等相关专业硕士、博士毕业生; 2. 熟悉传统机器学习基础理论,熟练掌握Kaldi、TensorFlow、Pytorch等社区开源工具中的一种及以上; 3. 熟练C/C++,Python,Shell编程语言,对数据结构和算法设计有深刻理解,参加过ACM等编程比赛的优先; 4. 参与过回声消除、声学定位、语音分离、语音增强、语音识别、唇语识别、手写识…
工作职责
1. 负责音频、语音等算法的处理和实现; 2. 负责智能座舱内语音分离与增强、语音唤醒、语音识别算法的研发和落地; 3. 负责多模态融合算法、多模态大语言模型的研发与落地。
1. 研发面向游戏平台场景的多模态大模型,包括文本、图像、视频、音频等多模态数据的理解与生成; 2. 构建与优化游戏内容理解算法,涵盖游戏玩法解析、类型识别、特色标签生成、玩家评论分析、剧情/世界观理解等; 3. 参与 TapTap 风格的视频与广告素材生成方案,支持用户增长团队等多模态素材生成的训练需求; 4. 支持游戏搜索与发现,利用多模态大模型进行精准匹配、语义搜索、跨模态检索(文本→视频、视频→游戏等); 5. 跟进并引入最新的多模态大模型研究成果,探索其在游戏行业的新应用场景; 6. 有预研的空间,进行学术研究与论文发表,推动顶会/顶刊产出,并结合业务进行技术落地; 7. 优化大模型的训练与推理性能,保障在海量游戏内容和用户数据上的高效运行。
1. 研发面向游戏平台场景的多模态大模型,包括文本、图像、视频、音频等多模态数据的理解与生成; 2. 构建与优化游戏内容理解算法,涵盖游戏玩法解析、类型识别、特色标签生成、玩家评论分析、剧情/世界观理解等; 3. 参与 TapTap 风格的视频与广告素材生成方案,支持用户增长团队等多模态素材生成的训练需求; 4. 支持游戏搜索与发现,利用多模态大模型进行精准匹配、语义搜索、跨模态检索(文本→视频、视频→游戏等); 5. 跟进并引入最新的多模态大模型研究成果,探索其在游戏行业的新应用场景; 6. 有预研的空间,进行学术研究与论文发表,推动顶会/顶刊产出,并结合业务进行技术落地; 7. 优化大模型的训练与推理性能,保障在海量游戏内容和用户数据上的高效运行。
1.负责多模态大模型全链路研发与优化,涵盖 SFT、RL 训练等关键环节,探索图文、视频、音频等多模态数据的质量评估与清洗方法、优化模型训练策略及结构设计、提升模型泛化与推理能力。 2.结合业务场景需求,主导多模态大模型落地项目,涵盖内容理解与结构化、质量甄别、智能生成等任务,设计算法方案并推动上线,提升业务效率与用户体验。 3.跟踪多模态大模型前沿技术,探索其在安全治理场景的适配性和落地,驱动技术迭代。 4.承担团队管理与人才培养,提升团队技术影响力。