夸克千问C端事业群-语音识别算法专家-杭州/北京
任职要求
1.计算机科学、电子工程、数学或相关领域的硕士及以上学位; 2.深入理解语音识别相关领域的基本概念,包括但不限于语音信号处理、自然语言处理、机器学习和深度学习等; 3.熟练掌握C++/C/Python/Shell等编程能力,并有实际的项目开发经验; 4.精通深度学习框架(如…
工作职责
1.负责声学前端、声学模型、语言模型、后处理、解码器等主要模块的迭代和改进; 2.负责优化双工交互系统,提高系统的鲁棒性和性能; 3.负责优化语音识别大模型、流式语音识别、音频理解大模型、语音端到端大模型等; 4.追踪业界前沿的语音技术,探索语音大模型在业务场景下的应用。
1. 负责音频多模态理解大模型的研发,包含语音识别、语音翻译、副语言理解、音频事件检测或音频captioning等任务的基础研究和应用落地; 2. 研究音频编码器、跨模态对齐、强化学习、多任务学习或语音端到端等技术方向; 3. 跟踪并落地领域内前沿论文,保持技术方案的领先性。
1. 操控万卡规模的 GPU 集群,对超大参数量级的预训练模型进行高效分布式训练与优化。 2.深度参与多模态(图像、语音、文本、视频)大模型的研发,探索多学科交叉领域的新奇玩法。 3.我们的技术将为夸克亿万用户提供高品质的AI智能服务,见证前沿技术实现真正的用户价值 加入我们,你将获得: 1.与顶级专家携手,以世界级算力资源和数据支持为背书,不断挑战技术极限。 2.极具竞争力的薪酬与福利,人性化、追求卓越技术的的工程师团队文化,助你在职业成长道路上全速前进。 3.在通往 AGI 的征途上,亲历关键技术的诞生与应用,留下属于你的时代印记。 如果你渴望驰骋在大模型与 AGI 的蓝海之中,那么这将是你的最佳舞台!快来加入我们,一同开创智能时代的新纪元。
岗位目标: 面向人工智能前沿技术领域,聚焦计算机视觉、自然语言处理、大模型等核心技术,研发高性能、低时延的智能系统,支持语音助手、多语言交互、智能内容生成、视觉理解等多种应用场景,推动AI技术的产品化落地与规模化应用。 具体职责包括但不限于: 核心算法研发与优化: 针对具体任务场景(如语音识别、机器翻译、图像理解、文本生成等),开展深度学习模型的算法设计与创新,探索新型神经网络架构(如Transformer、MoE、扩散模型等),提升模型在复杂环境下的准确性、鲁棒性与泛化能力。 负责端到端建模优化,结合上下文理解、对话状态追踪或多模态融合技术,增强系统在连续交互场景中的语义理解与响应能力。 构建高质量训练数据体系,设计自动化语料清洗、标注与增强方案,覆盖多语言、多方言、噪声或小样本等挑战性场景,支撑模型持续迭代。 大模型技术研发与应用: 参与大规模预训练模型(LLM、VL模型等)的研发与微调,包括指令微调、对齐优化、提示工程及推理加速,提升模型在下游任务中的表现。 探索大模型在跨模态理解(图文、音视频)、实时生成、知识推理等场景的应用路径,推动AIGC、智能摘要、自动字幕、翻译等业务的技术升级。 研发高效微调技术(LoRA、Adapter等)与模型服务架构,实现大模型在资源受限环境下的灵活部署。 系统性能优化与工程化落地: 推动模型轻量化与推理加速,应用模型压缩、量化、蒸馏、剪枝等技术,提升模型在移动端、边缘设备或云端的运行效率。 协同工程团队完成算法模块的高性能集成,优化分布式训练与推理框架,保障系统低时延、高并发与稳定性。 支持多平台部署(移动端、PC端、Web端、云服务),参与全链路性能调优与监控体系建设。 前沿技术探索与跨领域协作: 跟踪人工智能领域最新研究进展(CV/NLP/ASR/TTS/MT等),结合业务需求进行技术预研与原型验证。 与产品、数据、工程团队紧密协作,深入理解用户场景,推动AI能力在实际产品中的创新应用。
阿里巴巴智能信息事业群,聚焦AI在信息服务赛道的创新应用,从工具到服务,持续为用户提供高效、智能的AI应用。智能信息事业群核心产品为夸克、通义、UC浏览器、书旗小说、超级汇川等,以多产品矩阵,覆盖横跨各年龄段的7亿+用户人群,服务超10万+客户。 如果你,期望参与跨平台Native中间件开发; 如果你,期望参与跨平台网络中间件、H5容器、Native容器的开发; 如果你,期望参与语音识别、图像识别、地理围栏、虚拟试妆、3D建模、AR/VR等领域的开发; 如果你,期望参与无线电商的首页、交易主链路、登陆、店铺等基础组件维护与开发; 如果你,期望参与iOS系统平台整体架构设计、运行期性能优化、设计动态化可扩展的组件、框架、容器,提升整体研发质量和效率; 那还犹豫什么,赶紧加入我们吧!