蚂蚁金服蚂蚁集团-多模态基础算法工程师-支付宝技术部
社招全职3年以上技术类-算法地点:杭州状态:招聘
任职要求
计算机科学、人工智能、电子工程或相关领域的硕士或博士学位。 在以下至少一个领域有深入的研究或项目经验: 1.多模态: 熟悉多模态大模型(VLM/MLLM)、跨模态表征等技术。 2.语音处理: 精通ASR(特别是流式ASR)或TTS(特别是流式TTS)的核心算法。 3.计算机视觉: 熟悉实时目标检测、跟踪、姿态估计、行为识别等技术。 4.自然语言处理: 对大语言模型(LLM)有深入理解,熟悉Transformer等主流模型架构。 具备优秀的编程能力,熟练掌握 Python,并精通至少一种主…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1. 提升对话式语音交互体验:围绕支付宝生活助手等智能化场景,持续打磨语音流式全双工交互体验,提升垂类场景语音理解生成质量,建设更具“真人感”的语音交互; 2. 构建多模态交互算法能力:结合多模态感知与融合算法,设计音视频模态协同实时理解、交互决策、长时记忆等关键技术能力,实现系统“边看边想边说”并辅以丰富的表现力; 3. 提升多模态交互反馈质量:面向文本/语音/视频等模态,在语义内容准确性的基础上提升表达“真实感”和“真人感”,包括但不限于副语言信息、视觉画质/美学提升等; 4. 优化端到端耗时体验:面向多模态大模型的训练/微调/推理加速方法,包括但不限于模型训练效率提升、模型加速、端云协同等,将算法模型极致优化并推动落地。
包括英文材料
学历+
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
语音识别+
https://developer.nvidia.com/blog/essential-guide-to-automatic-speech-recognition-technology/
Over the past decade, AI-powered speech recognition systems have slowly become part of our everyday lives, from voice search to virtual assistants in contact centers, cars, hospitals, and restaurants.
语音合成+
https://www.ibm.com/think/topics/text-to-speech
Text to speech (TTS) is a type of technology that converts text on a digital interface into natural-sounding audio.
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
OpenCV+
https://learnopencv.com/getting-started-with-opencv/
At LearnOpenCV we are on a mission to educate the global workforce in computer vision and AI.
https://opencv.org/university/free-opencv-course/
This free OpenCV course will teach you how to manipulate images and videos, and detect objects and faces, among other exciting topics in just about 3 hours.
NLP+
https://www.youtube.com/watch?v=fNxaJsNG3-s&list=PLQY2H8rRoyvzDbLUZkbudP-MFQZwNmU4S
Welcome to Zero to Hero for Natural Language Processing using TensorFlow!
https://www.youtube.com/watch?v=R-AG4-qZs1A&list=PLeo1K3hjS3uuvuAXhYjV2lMEShq2UYSwX
Natural Language Processing tutorial for beginners series in Python.
https://www.youtube.com/watch?v=rmVRLeJRkl4&list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4
The foundations of the effective modern methods for deep learning applied to NLP.
Transformer+
https://huggingface.co/learn/llm-course/en/chapter1/4
Breaking down how Large Language Models work, visualizing how data flows through.
https://poloclub.github.io/transformer-explainer/
An interactive visualization tool showing you how transformer models work in large language models (LLM) like GPT.
https://www.youtube.com/watch?v=wjZofJX0v4M
Breaking down how Large Language Models work, visualizing how data flows through.
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
还有更多 •••
相关职位
校招蚂蚁星计划 -
风控技术是蚂蚁大安全技术最核心的团队之一,全面支持蚂蚁支付宝、国际、数金几大板块的风险防控技术能力建设,子方向包括资金风控、内容安全、流量作弊风控、核身等硬核技术,用大数据和AI能力,构建蚂蚁金融和数字化风控技术底盘,保证了风险水位的长期持续稳定。团队敢于打硬仗,不断挑战行业型不确定性技术课题。 面向蚂蚁海量用户,日亿级交易,我们希望用大模型技术重构风控攻防的底层逻辑,结合万亿样本,进行大模型算法/工程/应用的全栈建模,选型,设计,研发,和优化,端到端解决风险防控问题,通过各种创新(如黑产对抗的强化学习,防控特征/策略的生成,面向对抗的多模态算法/系统设计和优化等),用智能化突破现有风险对抗体系的上限,保障支付宝的每一个客户的资金安全,为每一次支付保驾护航。
杭州
社招技术类-算法
1、负责支付宝直播/短视频/小程序/社区等场景内容安全和内容理解相关视觉算法开发和优化; 2、基于MLLM构建与防控规则对齐的风险/质量/正向识别能力,解决内容场景中的内容识别/理解问题; 3、关注CV及多模态任务前沿技术和发展动态,以创新的技术视角解决内容安全场景的变种对抗、隐晦风险等问题。
更新于 2025-07-03杭州
社招5年以上技术类-算法
1、负责支付宝直播/短视频/小程序/社区等场景内容安全和内容理解相关视觉算法开发和优化; 2、基于MLLM构建与防控规则对齐的风险/质量/正向识别能力,解决内容场景中的内容识别/理解问题; 3、关注CV及多模态任务前沿技术和发展动态,以创新的技术视角解决内容安全场景的变种对抗、隐晦风险等问题。
更新于 2026-01-19杭州