百度音频算法工程师(J81041)
任职要求
-在音频处理、计算机视觉(CV)、大模型等相关领域有深入研究,特别是在音频分析(如语音识别、音频分类、音频信号处理等)、无监督/半监督学习、Metric Learning等方面有实践经验 -熟练掌握至少一种编程语言(如C++、Python),具备扎实的编程能力,能够…
工作职责
-负责处理产品中音频、视频等内容的安全问题,包括但不限于色情、暴力等违规内容的识别与处理 -基于音频处理技术(如语音识别、声纹识别、音频分类等)和人工智能大模型,开发并落地内容安全检测模型,确保从海量音视频数据中高效识别风险内容 -研发和优化内容风控解决方案,分析违规数据的特点,并为平台提供全面的风控保障 -探索和应用前沿语音算法技术,方向涵盖但不限于语音识别、声纹识别、音频相似性匹配、多模态大模型等 -针对音频文件中的风险内容,深入研究并开发高效的自动化检测算法,提升风控系统的智能化与自动化水平
1、负责设计和实现游戏客户端的核心功能、系统和模块,包括用户界面、渲染、输入、音频、动画、物理等 2、开发和优化游戏客户端的性能、帧率和内存占用,确保游戏的流畅性和响应性 3、协助美术、策划建立高效的游戏内容制作流程,理解和实现游戏的需求和功能 4、协助美术、策划开发相关工具链,优化程序设计和工程结构 5、熟悉游戏开发工具和技术,如游戏引擎、集成开发环境、版本控制系统等
在算力驱动的 AGI 和人文精神的烟火气交汇之处,我们真诚邀请对大模型 Omni Model 有热情的同学加入,共同打造更具影响力的智能系统。你会成为团队的一员,并和其他同事协作,共同研发 SOTA 的 Omni Model。期待你以务实和客观的科学态度来推进技术的进展,不被过往经验裹挟、不被主观偏好影响。期待你除了算法外仍然是为出色的工程师。期待你对技术有强烈的好奇心和开放心态。 区别于传统 ASR / TTS 级联技术,我们希望打造端到端的 Omni Model 在实时交互中释放大模型的智力水平,彻底改变以 Chatbot 文字为主的人机交互界面 岗位说明:你会负责围绕大模型 Omni Model 构建语音模态的相关研究工作,包括但不限于如下事项 海量的语音数据处理和构建:定性分析、定量评估数据质量,并给出 scalable 的改进方案;探索跨模态(文字/视觉/语音)混合训练的最佳实践; 探索更加高效且合理的模型架构,让模型更加理解音频,同时让模型具备更好的语音合成能力 研究并探索基于 Omni Model 的 Post Train,包含但不限于 SFT 和 RL
各类大模型算法岗位:包括不限于 ✓大模型应用(Rag、Agent的研究等) ✓大模型技术研究 (指令微调、强化学习、推理等) ✓多模态理解与生成研究(文本、图像、视频、音频等)
1.负责AI Lab语音技术团队语音技术,包括TTS、语音压缩编码、语音前端处理等,尤其是基于AIGC算法的基础研究和应用落地。 ; 2.侧重于研发语音合成、语音转换、few-shot / zero-shot TTS、音频和音乐生成等先进算法尤其是生成类算法,并且可以融合语音识别、音频分析、语音增强、语音分离等更广泛的语音/音频任务。将有关算法成果应用于语音 / 音乐 / 音效/音频生成、语音翻译(S2TT、S2ST)、虚拟人等众多场景中。 ; 3.通过跟踪和创新,确保算法方面的行业领先,通过打造语音技术PAAS平台服务于腾讯内部各个业务场景包括游戏、社交、内容服务、广告、金融、车载助手、企业服务(如腾讯会议、企业微信、企点客服、商通、数智人)等等,帮助业务产生实际价值和打造业界领先的语音应用产品。; 4.持续关注学术界和行业的最新研究动态,参与国际会议、研讨会,与全球顶级团队进行交流合作。。