字节跳动算法评测工程师-语音
任职要求
1、2026届获得硕士及以上学位,计算机相关专业优先;
2、对技术和基础原理有执着追求,善于用各种手段解决问题;熟悉各类业界主流的人工智能相关的平台特性,具备平台开发经验&能力,熟悉至少一门编程语言,包括但不仅限于:J…工作职责
团队介绍:语音团队致力于语音、音频、音乐等大模型AIGC技术的研发和产品创新,我们的使命是通过多模态AIGC音频技术赋能内容创作与语音交互,让内容生产、消费与互动变得简单、沉浸、多元化。当前团队已有成熟的语音生成、声音克隆、音频理解与处理、音乐理解和生成等领域的技术,一方面以中台形式服务于公司众多业务线,另一方面,通过火山引擎开放平台-AI中台-音频技术、商用音乐平台-易颂等,向众多企业开放技术成熟稳定的能力和服务。 1、负责字节跳动语音相关产品的TTS、ASR、多模态交互模型等场景的效果评估,站在用户视角构建端到端的算法效果评测体系; 2、深入业务结合业务需求痛点,设计完备的算法效果质量保障、评测方案;构建合理且置信的标准化评测体系,解决业务评测效率和效果问题; 3、推动通用人工智能评测方案的升级迭代,逐步推广至公司内的商业化平台。
1.负责多模态大模型相关技术研究和开发,包括跨模态对齐、多模态理解等任务,研发业界领先的多模态大模型; 2.持续跟进业界最新的多模态大模型算法,参与多模态大模型的设计、训练、调优及评测工作,并推进多模态大模型在业务场景的应用落地。
1.探索游戏领域语音大模型的预训练、微调、RAG、评测等技术; 2.探索语音技术尤其是语音大模型技术在游戏场景中的应用,为游戏创作、运营、交互等各环节提供更智能化的能力; 3.优化现有线上算法,包括TTS、音乐生成、歌声合成等算法的研发工作; 4.跟踪探索语音信号处理其他前沿技术并探索应用落地。
参与语言大模型、视觉大模型、语音大模型、多模态大模型的应用评测与研究工作,具体工作内容包括但不限于: - 从大模型应用视角出发,建设科学、全面的大模型评测体系,制定并实施评测标准与评测方案。 - 对数据进行处理、理解,建设高质量数据pipeline,并基于科学、全面的评估体系构建数据集,系统评估模型能力,产出评测报告,指引大模型相应能力的提升。 - 利用大模型辅助、替代人工标注,准确、高效的进行半自动化、自动化的模型评测,降低评测成本、提升评测效率。 - 利用大模型进行自动化的Red Team,系统的发现9.11和9.8谁大答错等典型模型能力短板,以及模型发生涉政涉黄涉及未成年人等不当回复的风险。 - 对模型评测中发现的模型能力短板、模型能力变化、不符合认知的异常进行研究分析,产出研究分析结论,指引大模型相应能力的提升。具体研究项包括不限于数据、模型结构、训练方式对各类模型能力的影响,以数据相关研究为例,包括不限于研究不同数据类型、不同数据配比、不同数据加入时机、不同数据规模等变量对各类模型能力的影响。 - 紧密关注大模型方向的前沿技术进展,积极主动地学习和探索新数据分析、模型训练以及模型评测方法。 - 紧密关注大模型应用落地的行业最新进展,结合行业进展思考大模型评测、训练的发展趋势,对模型评测体系、机制进行迭代。