腾讯企业微信-多模态大模型算法工程师 -音频方向
任职要求
1.计算机、信号处理、电子工程等相关专业,硕士及以上学历,3年以上语音/音频算法开发经验; 2.熟悉 ASR、TTS、声纹识别、说话人分离等至少一个方向的核心算法原理与工程实现; 3.熟练使用 PyTorch/TensorFlow 等深度学习框架,具备模型训练、微调(SFT)、强化学习(RLHF/DPO…
工作职责
1.负责企业微信音频 AI 相关算法的研究与落地,包括但不限于语音识别(ASR)、语音合成(TTS)、声纹识别、音色转换等方向; 2.负责热词定制、领域自适应、说话人分离等场景化能力的算法设计与优化; 3.探索音频大模型在企业办公场景的创新应用,推动模型训练、微调及端侧部署落地; 4.跟进语音/音频领域前沿技术进展(Whisper、SpeechGPT 等),持续提升核心指标与用户体验; 5.与客户端、后台团队协作,完成算法从原型验证到工程化落地的全链路交付。
1.负责多模态大模型(如音视频理解、视觉问答、图像生成等)的技术研究、应用落地与性能优化; 2.研发和优化基于大模型的多模态应用; 3.收集和构建高质量的多模态数据集,并进行模型的训练、微调和提示工程(Prompt Engineering); 4.将多模型算法高效地集成到企业微信客户端,与客户端团队合作解决端侧部署和推理的挑战; 5.紧跟多模态领域(如CLIP, BLIP, Stable Diffusion, Sora等)的技术前沿,推动技术创新在产品中落地。
1.负责多模态大模型(如音视频理解、视觉问答、图像生成等)的技术研究、应用落地与性能优化; 2.研发和优化基于大模型的多模态应用; 3.收集和构建高质量的多模态数据集,并进行模型的训练、微调和提示工程(Prompt Engineering); 4.将多模型算法高效地集成到企业微信客户端,与客户端团队合作解决端侧部署和推理的挑战; 5.紧跟多模态领域(如CLIP, BLIP, Stable Diffusion, Sora等)的技术前沿,推动技术创新在产品中落地。
1.针对企业微信AI模型的特点,持续构建完善的评测基准,包括但不限于NLP、ASR、MLLM等领域,有效指导算法优化方向; 2.负责评测数据的自动化生产能力构建:基于数据泛化等能力,构建领域增强型评测数据集生产链路,支持多模态场景的自动化数据扩增与效果验证; 3.负责自动化评测与归因分析:探索并实现自动化评测与模型缺陷归因机制。
1. 针对蚂蚁国内外信贷金融业务发展需求,结合大模型升级信贷风控模型体系,包括:额价智能决策、评级、画像、价值模型等; 2. 协同业务及政策团队抽象小微金融场景中的关键问题,设计大模型驱动的解决方案,推动大模型在信贷场景的创新应用; 3. 深入理解信货业务模式,结合小模型的决策精准度问题,设计与客户交互的实时信贷决策方案,提升人维度的客户体验; 4. 搭建多源信息风控特征池,利用大模型、深度学习、机器学习等方法解决信贷场景的实际问题; 5. 参与和探索前沿算法在信贷智能风险管理领域的应用和落地,包括但不限于大模型、知识图谱、GraphML、多模态识别、AutoML,、运筹优化等方向。