夸克智能信息-语音识别算法专家-杭州/北京
任职要求
1.计算机科学、电子工程、数学或相关领域的硕士及以上学位; 2.深入理解语音识别相关领域的基本概念,包括但不限于语音信号处理、自然语言处理、机器学习和深度学习等; 3.熟练掌握C++/C/Python/Shell等编程能力,并有实际的项目开发经验; 4.精通深度学习框架(如…
工作职责
1.负责声学前端、声学模型、语言模型、后处理、解码器等主要模块的迭代和改进; 2.负责优化双工交互系统,提高系统的鲁棒性和性能; 3.负责优化语音识别大模型、流式语音识别、音频理解大模型、语音端到端大模型等; 4.追踪业界前沿的语音技术,探索语音大模型在业务场景下的应用。
1. 负责语音识别和语音对话大模型的算法研发与优化,包括声学模型、LLM模型和解码器等,探索新的算法架构,建设高效率、低时延的语音应用系统; 2. 结合业务需求,持续改进现有模型的性能,确保其在不同应用场景下的准确性和鲁棒性,提升语音助手和语音智能体用户体验; 3. 构建和管理大规模语音识别和语音对话语料库,用于训练、验证和测试模型; 4. 跟踪前沿技术和研究动态,提出新颖的算法思路和解决方案。
1. 负责语音合成、语音识别、端到端语音交互大模型算法的基础研究和应用落地; 2. 参与语音合成与识别技术在业务场景落地,解决落地过程中的前沿问题,持续优化语音合成与识别核心技术效果; 3. 深入调研和关注音频/NLP/多模态/全模态等方向的前沿技术,持续探索语音技术的新能力和新应用。
1. 操控万卡规模的 GPU 集群,对超大参数量级的预训练模型进行高效分布式训练与优化。 2.深度参与多模态(图像、语音、文本、视频)大模型的研发,探索多学科交叉领域的新奇玩法。 3.我们的技术将为夸克亿万用户提供高品质的AI智能服务,见证前沿技术实现真正的用户价值 加入我们,你将获得: 1.与顶级专家携手,以世界级算力资源和数据支持为背书,不断挑战技术极限。 2.极具竞争力的薪酬与福利,人性化、追求卓越技术的的工程师团队文化,助你在职业成长道路上全速前进。 3.在通往 AGI 的征途上,亲历关键技术的诞生与应用,留下属于你的时代印记。 如果你渴望驰骋在大模型与 AGI 的蓝海之中,那么这将是你的最佳舞台!快来加入我们,一同开创智能时代的新纪元。
1. 主导面向ToB场景的Android端多模态交互系统架构设计与核心模块开发,包括语音采集/播放、摄像头控制、传感器融合、UI响应、状态管理等。 2. 与AI算法团队紧密协作,高效集成语音识别(ASR)、语音合成(TTS)、视觉理解(CV)、大语言模型(LLM)等端侧推理模块,优化模型加载、推理调度与资源协同策略。 3. 设计并实现低延迟、高并发的双工对话通道,支持实时打断、动态判停、上下文感知等高级交互能力在端侧的稳定运行。 4. 构建可扩展、可配置的SDK或中间件,支持多行业客户(如车企、手机厂商、IoT设备商)的快速接入与定制化需求。 5. 参与端云协同架构设计,在保障本地交互流畅性的同时,确保数据传输、存储与处理符合GDPR、CCPA、中国《个人信息保护法》等国内外隐私合规要求。 6. 深度集成系统级安全能力,包括应用权限管控、敏感操作审计、安全启动验证、密钥管理及安全OTA升级机制,提升端侧整体安全水位。