logo of antgroup

蚂蚁金服蚂蚁集团-多模态理解与生成算法专家-杭州/北京

社招全职4年以上技术类-算法地点:北京 | 杭州状态:招聘

任职要求


1. 计算机科学、人工智能、数学等相关专业本科及以上学历,4年以上人工智能算法相关工作经验;
2. 精通跨模态检索、图像/视频内容理解、检索增强生成等相关方向;
3. 对LLM/MLLM的基本原理有深入的理解,熟悉大模型微调、对齐优化,…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 参与前沿AI技术探索与行业级产品落地的双轨发展战略,与顶尖团队协作攻克多模态理解与生成智能体系统的技术挑战,推动多模态RAG与智能体技术的产品化落地;
2. 设计并实现融合文本、图像、语音、视频等多模态数据的检索增强生成系统,优化跨模态语义对齐与知识检索能力;
3. 设计基于多模态大模型的智能体核心算法,实现任务规划、意图识别、工具调用及多智能体协作系统。
包括英文材料
学历+
算法+
大模型+
还有更多 •••
相关职位

logo of antgroup
社招4年以上技术-开发

1. 构建文本、图像、视频、语音等多模态RAG系统及多模态大模型应用技术架构,打造极致产品体验,攻克关键技术难点,设计合理创新的技术方案,并推动落地; 2. 搭建基于大模型的智能体核心系统,实现任务规划、工具调用、多智能体协作等模块; 3. 深入理解AI应用算法,与业务、算法团队配合,保障算法工程服务落地的质量和效率,包括不仅限于模型推理性能优化、大规模向量检索能力,构建高性能、高可用AI应用工程架构。

更新于 2025-10-22北京|杭州
logo of bytedance
社招A191470

团队介绍:Data-电商-智能对话团队,致力于打造业界领先的大模型对话系统。团队服务的日活用户超过数亿,应用场景覆盖抖音电商全链路,包括平台客服、平台商服、商家客服、达人客服,以及创新的智能导购等核心业务场景,通过持续的技术创新和优化,成功构建了一套完整的智能对话解决方案,为电商业务带来了显著的效率提升和用户体验改善。 课题介绍: 背景:电商智能客服正逐渐成为业务增长和用户体验优化的重要方向,基于大型语言模型(LLM)的智能客服系统解决电商场景中的核心挑战,由LLM完成一次用户进线的完整接待过程,包括诉求澄清、方案协商、方案执行等阶段,实现电商业务的智能化升级——让用户享受更智能高效的客服服务。 研究方向:本课题聚焦于LLM 后训练与智能客服。构建基于 LLM 的多智能体(Multi-Agent)框架,通过规划、回复、工具三类Agent的协作,实现从问题分析、方案执行到结果反馈的全流程智能客服。核心目标是确保客服对话的准确性、合规性与流畅度,避免模型生成幻觉或违背平台政策。同时,围绕电商客服的复杂任务,构建 Benchmark数据集,优化SOP遵循、多轮交互、用户满意度等指标。此外,研究高效数据利用方法,探索低标注数据条件下的LLM训练,并开发自动生成高质量训练数据的系统,以降低人工标注成本,提高智能客服的服务质量与效率。 1、开发AI驱动的智能客服系统:设计并实现AI对话式客服助手,能够处理电商咨询、投诉、退款、争议解决及物流相关问题,以AI替代传统人工客服; 2、大语言模型(LLM)后训练与高效学习:应用最前沿的LLM训练优化技术,如指令微调、强化学习、持续学习等,在最少标注数据的情况下优化AI客服响应质量;具备大语言模型(LLM)微调、知识蒸馏或强化学习的相关经验,应用于对话式AI场景;深入理解检索增强生成(RAG)、专家混合模型(MoE)、稀疏注意力、强化学习、推理时间优化等技术,以提升AI对话质量; 3、基准测试与训练数据构建:识别具有挑战性的客服交互场景,如政策解读、争议处理、客户投诉、导购推荐等,并构建专门的测试集和训练集; 4、多语言与跨文化客服支持:构建能够适应多语言和不同文化背景的AI模型,确保客服交互的精准翻译和针对不同用户群体的合适响应;精通多语言自然语言处理(NLP)、机器翻译及跨语言对话建模; 5、模型优化与高效部署:研究模型压缩、量化、推理优化等技术,确保AI客服助手在大规模应用场景下具备低延迟、高可靠性的表现。

更新于 2025-05-27上海
logo of youku
社招3年以上

应用声纹识别、音频理解、音频增强等音频技术处理海量音频数据,紧跟业界前沿技术方向,参与构建生成式音频系统,从文本、视频、音频等多模态输入出发,研发高自然度、风格多样、可控性强的语音、音乐与音效生成模型,期待追求卓越、自我驱动、聪明乐观的优秀人士加入虎鲸文娱集团,共同开创影视工业化的商业新格局。 具体职责包括但不限于: 1、负责基于海量数据和复杂业务场景,和团队其他成员一起构建面向真实影视剧场景的一流音频合成系统,共同推动技术产品化与商业化; 2、负责音频合成相关算法设计,覆盖以下一个或多个方向: ꔷ 高拟人度、情绪丰富的语音合成,包括Emotional TTS、Speaker Recognition、Instant Voice Clone等模块的优化与落地; ꔷ 跨模态音频生成,包括Video-to-Audio、Text-to-Audio等方向的模型优化与落地; ꔷ 端到端的音乐生成,包括Lyric-to-Song, CoT, ICL等模块的优化与落地; 3、跟踪业界前沿技术和方法,持续探索音频合成技术的新能力和新应用,解决资源受限场景的实际问题,持续提升音频合成核心能力

更新于 2025-12-16北京|杭州
logo of antgroup
校招蚂蚁星计划 -

机器智能部门介绍: 蚂蚁集团大安全事业群机器智能团队致力于打造安全科技的核心竞争力,做可信AI的持续引领者,为广大支付宝用户的数字化生活提供全方位安全保障。作为蚂蚁集团安全版图中的核心力量,我们正以最前沿的AI算法为刃、以大模型为盾,编织数字世界的"安全之网"。在这里,大模型、智能体、AI安全等热门的研究不再是纸上谈兵,每一个方向都在落地成为真实业务场景、十亿级用户的智慧防线。 关于团队,过去获得过浙江省科技进步一等奖、中国电子学会科技进步一等奖,人工智能学会吴文俊人工智能自然科学奖一等奖,中国图象图形学学会科技进步一等奖、多次获得中国计算机学会科技进步奖、世界人工智能大会SAIL之星与"镇馆之宝",等多个重量级奖项。可信AI专利布局全球第一,主导制定ITU国际风控标准。多名Kaggle Grandmaster ,拿过多个KDD Cup/CVPR/NeurIPS/ICCV/CVPR/ECCV等多个顶会竞赛冠军,累计发表近百篇顶会论文; 在这里,你将有机会和毕业于海内外著名高校的行业专家们、众多KDD Cup/CVPR 等比赛冠军、Kaggle Grandmaster 、顶会论文作者们共同根植蚂蚁丰富的场景数据,利用海量算力探索创新前沿算法应用,使用领先的机器学习算法解决风控业务问题,构建数据与知识驱动的智能风控体系,提升用户的支付安全体验。 加入我们,让我们一起为世界带来微小而美好的改变。 1.伪造检测方向,统一篡改和生成,统一图像、音频和视频的Allinone模型,并探索推理和生成reward; 2.多模推理方向,视觉图像&视频reasoning,提升理解和推理能力,攻坚reward设计、多模态推理框架设计等核心问题; 3.多模交互方向,构建统一的端到端多模态模型,使其能够像人类一样同时感知多种模态的信息(文本、图像、音频、视频),并以流式方式生成文本和自然语音响应。

北京|上海|杭州