钉钉数据研发工程师-音频方向
任职要求
【必备项】 1、热爱编程,熟悉掌握但不限于JAVA/C/C++/Python等编程语言中的一种或几种,有良好的编程习惯; 2、热衷于前端或爬虫技术; 3、有扎实的数据清洗的工程基础,精通数据结构和常用算法,熟练掌握各种编译、调试、性能分析工具; 6、学习能力强,对新事物保有好奇心,有良好的沟通能力和团队协同能力,善于独立思考并反思总结。 【加分项】 1、有互联网公司实习经验,参与过互联网软件等相关产品; 2、热衷于ACM,在校期间参与过大学生数学建模竞赛,“挑战杯”,机器人足球比赛等,或作为骨干参与过学生网站的建设和开发; 3、在相关领域国际顶级会议、期刊发表论文,或相关学术会议组织的权威比赛中获奖。
工作职责
1. 数据流水线开发: 紧密与模型研究员/工程师协作,构建和维护面向特定模型(LLM、多模态、DocVLM等)的数据处理Pipeline。 2. 数据预处理: 负责执行大规模数据的清洗、去重、脱敏、格式转换、以及Tokenization等预处理工作。 3. 特征工程: 根据模型需求,进行复杂的特征提取和工程化,并将其注册到特征商店中供下游使用。 4. 训练数据构建: 负责自动化构建和迭代高质量的训练集、验证集和测试集,并确保其分布的一致性和合理性。 5. 负责数据ETL/ELT流程的开发和维护,构建高效的数据摄取(Ingestion)和处理管道。管理和优化数据存储
1. 负责制定产品质量目标,负责测试方案及测试用例设计、编写和执行; 2. 负责音频产品测试工作,涉及音质效果主客观测试和系统功能、性能、自动化测试等方向; 3. 负责从音频产品用户应用场景出发,组织与执行测试任务、改善测试方法、整理和分析测试结果,推动问题及时解决; 4. 负责产品的竞品对比测试,根据测试结果提出改善方案; 5. 根据相关测试数据分析出研发过程中的效率、质量问题,提供解决方案,并主导闭环和落地。
1、迭代AI剪辑能力:基于对广告创意的理解,应用并开发AIGC和ChatGPT等核心算法,实现AI视频剪辑和一键生成功能,优化广告投放效果; 2、自动化素材生产优化:提升素材生产平台的能力,分析并复刻流行创意,进行创意洞察,建设优质素材库,通过数据驱动优化广告投放的各个环节; 3、技术追踪与应用:紧跟AIGC Startups、多模态和生成式AI的最新技术动态,推动其在广告创意理解、自动生成和优化中的应用与效果提升。
通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 团队致力于追逐实现 Omni 基座模型,实现多模态理解与多模态生成一体化。在此之中,语音理解与语音生成是极其重要的技术,影响着下一代 AI 的交互形式,同时通过生成语音甚至创造音乐等方式改变人类的生活与工作。团队音频组负责围绕 Qwen 基座模型展开音频处理以及与音频交互相关的基础研究及其应用,代表工作有 Qwen2.5-Omni, Qwen2-Audio, Qwen-Audio。音频组招收理解以及生成方向研究员,包括但不限于 ASR, TTS, S2TT,TTS, Zero-Shot TTS, Music/Song Generation, 同时也欢迎擅长音频交互的工程师,负责基座模型的开源与落地应用,支持开发实时交互系统。 工作职责: 1. 单人/多说话人语音识别。 2. 语音合成与高质量音频合成。 3. 音频前端与音色转换。 4. 音色克隆(Zero-Shot TTS)。 5. 音乐生成 / 歌声生成。 6. 理解指令遵循能力提升与推理,包括 SFT, GRPO 等。 7. 流式音频交互模型的推理与加速 (熟悉RTC/WebSocket等)。