蚂蚁金服蚂蚁集团-多模态&大模型方向-图音视
任职要求
1. 计算机科学、人工智能、自然语言处理、数据科学、机器学习等相关专业。 2. 在多模态领域具备相关研发经验,在多模态大模型(OCR/信息抽取/caption/分割/生成/篡改伪造等方向)、多模态推理(MLLM-R1、Video-R1等)等方向有丰富经验,有顶会(NeurIPS、CVPR等)论文发表或国际比赛获奖者优先。 3. 在语音算法领域具备相关的研发经验,包括但不限于语音大模型、声纹识别、语音识别、语音合成和音频生成、AIGC音频及物理重放检测等,有语音顶会(ICASSP、INTERSPEECH、ASRU)论文发表或国际比赛获奖者优先。 4. 具备独立的算法研发、优化能力,编程开发能力强,熟练掌握Python/C++等编程语言和PyTorch等深度学习开发框架。 5. 沟通能力和逻辑表达能力,良好的团队合作精神,有创造性思维,善于解决项目开发或研发中的技术难题。
工作职责
1. 通过多模态算法进行用户的可信认知,支持十亿级支付宝用户,业务覆盖支付宝、蚂蚁国际、消金、财富、保险、生态等蚂蚁全域场景。 2. 方向一:多模态理解与推理方向,负责全面、高精、高效的多模态垂域模型研发,深耕视觉图像&视频reasoning,提升理解和推理能力,攻坚reward设计、多模态推理框架设计等核心问题。 3. 方向二:负责声纹识别、声音防伪算法以及意图理解等算法,探索声纹表征、声纹防伪、ASR、语音合成等All-In-One模型方案,研发金融级识别和防伪算法,落地与实际支付场景; 4. 方向三:声学算法部分,负责波束成形、声源定位、阵列增强、音频编解码等软硬件一体语音信号处理算法原型开发、性能优化 5. 关注多模态以及语音大模型算法前沿技术和发展动态,持续探索新一代AI驱动的、高效的、有效的、业务及产品新范式,推动业务发展、引领行业变革;
-负责落地LLM在内容理解场景中的应用,负责文本内容理解与审核场景端到端效果优化与提升 -重点研究以小尺寸大语言模型相关的技术,包括但不限于数据建设、指令微调、模型优化、模型蒸馏等 -提升数据构建合成、模型推理等能力;构建大小模型融合的推理系统,提升模型在理解与审核场景中的效果 -持续探索跟进学术与业界前沿进展,探索包括但不限于CoT、RAG、强化学习微调等能力并落地
在算力驱动的 AGI 和人文精神的烟火气交汇之处,我们真诚邀请对大模型 Omni Model 有热情的同学加入,共同打造更具影响力的智能系统。你会成为团队的一员,并和其他同事协作,共同研发 SOTA 的 Omni Model。期待你以务实和客观的科学态度来推进技术的进展,不被过往经验裹挟、不被主观偏好影响。期待你除了算法外仍然是为出色的工程师。期待你对技术有强烈的好奇心和开放心态。 区别于传统 ASR / TTS 级联技术,我们希望打造端到端的 Omni Model 在实时交互中释放大模型的智力水平,彻底改变以 Chatbot 文字为主的人机交互界面 岗位说明:你会负责围绕大模型 Omni Model 构建语音模态的相关研究工作,包括但不限于如下事项 海量的语音数据处理和构建:定性分析、定量评估数据质量,并给出 scalable 的改进方案;探索跨模态(文字/视觉/语音)混合训练的最佳实践; 探索更加高效且合理的模型架构,让模型更加理解音频,同时让模型具备更好的语音合成能力 研究并探索基于 Omni Model 的 Post Train,包含但不限于 SFT 和 RL
1.负责贝壳多模态数据下的多模态大模型增量预训练、指令微调,以及面向下游垂直领域任务的效果优化; 2.结合自有产品和业务需求,负责跨模态检索、多模态分类、多模态表征等模型研发与应用,解决面向业务场景的应用和落地时的算法卡点问题; 3.负责搭建多模态大模型dataset和benchmark的收集、清洗和评测体系; 4.与工程、产品团队配合,推动团队成果的应用落地。