
Soul APPAIGC语音算法工程师-校招
任职要求
1. 计算机、人工智能、数学等相关专业硕士及以上学历。 2. 在国际顶级会议/期刊(如 NeurIPS、ICLR、TPAMI、Interspeech、ACL 等)以第一作者发表过论文,或在开源社区/竞赛中有突出成果。 3. 熟悉 Megatron、DeepSpeed 等主流大模型训练加速框架,具备大规模语言/语音模型训练经验,能够高效实现定制化训练流程。 4. 具备良好的跨团队沟通能力,能够与产品和研究团队高效协作。
工作职责
近年来,以大模型为核心的生成式人工智能在人机交互和虚拟陪伴领域展现出巨大潜力。我们专注于探索生成式AI在社交场景下的前沿应用和产业落地,致力于打造具备多模态感知与生成能力的社交大模型。 随着大语言模型的快速演进,如何让模型更好地理解多维度信息,并在社交场景中提供自然、细腻、沉浸感十足的语音与多模态交互体验,成为我们的核心研究方向。 如果你对生成式AI、多模态建模和智能交互充满热情,并希望参与构建下一代社交与陪伴大模型,欢迎加入我们,共同突破技术边界。 1. 多模态大模型算法创新:面向社交与智能交互需求,设计与优化模型架构,实现文本、语音、视觉等模态的联合建模,推动行业领先的社交多模态大模型研发。 2. 语音编码与生成算法突破:探索高效语音编码策略,优化离散化与连续特征建模方案,提升语音合成质量和建模效率。 3. 端到端技术闭环:参与或主导从数据构建、模型训练、性能评测到部署上线的完整研发流程。 4. 前沿应用技术探索:紧跟LLM、RL、Diffusion Models等前沿技术发展,探索创新范式并提升模型性能。

近年来,AIGC 技术在图像与视频生成方向取得了突破性进展,生成对抗网络、扩散模型以及多模态大模型的快速迭代,使视觉内容的创作方式发生了革命性变化。我们专注于探索生成式 AI 在视觉生成、虚拟内容创作和沉浸式体验中的前沿应用,致力于打造具备创意表达与真实感渲染能力的新一代图像与视频生成大模型。 随着模型在高分辨率生成、长视频建模与跨模态理解上的持续演进,如何进一步提升生成质量、控制力与效率,并将前沿技术落地到实际产品场景,是我们的核心研究方向。 如果你对生成式 AI、计算机视觉和视频生成充满热情,并希望参与构建下一代 AIGC 创作平台,欢迎加入我们,共同突破视觉生成的技术边界。 岗位职责 - 图像与视频生成算法创新:围绕GAN、VAE、Diffusion Models、Video Diffusion 等前沿技术,开展图像/视频生成、编辑、控制的算法研究与优化。 - 高分辨率与长视频建模:探索多尺度建模、时序一致性与跨帧约束方法,提升长视频生成的稳定性与沉浸感。 - 多模态融合与可控生成:设计跨模态联合建模方案,实现文本、图像、视频、语音等模态的协同生成与精准控制。 - 端到端研发闭环:参与或主导从数据构建、模型训练、性能评测到应用部署的完整研发流程。 - 前沿方向探索:紧跟 LLM、Diffusion Models、AR等前沿技术,推动 AIGC 在视觉生成领域的创新与落地。

1.负责交互式语音合成,包括但不限于交互式AI播客、双工多模态通话等相关技术的算法研究,并协助业务落地; 2.持续迭代优化基础语音合成大模型算法,提高生成语音的自然度和稳定性; 3.持续跟进业界前沿算法发展方向,推动在核心技术上的影响力发展;
团队介绍: 高德语音技术团队,由高德资深算法专家,原微软小冰核心对话技术负责人组建,主要负责前沿语音技术在高德丰富场景中的落地应用。团队当前聚焦在语音合成、唤醒、语音AIGC等方向,探索前沿语音大模型技术对高德丰富产品形态的赋能。 具体职责包括但不限于: 1、对语音合成、自然语言处理、音视频多模态融合和大模型等方向感兴趣,独立研究并完成指定课题; 2、通过机器学习和人工智能技术来提升甚至重新定义音频内容创作工作,产出下一代超自然语音合成技术并应用于高德出行业务场景。