logo of antgroup

蚂蚁金服【蚂蚁星】音视频编解码基础开发

校招全职蚂蚁星计划 - Plan A地点:杭州状态:招聘

任职要求


1. 熟练使用C/C++,具备算法工程实现能力;
2. 熟悉视频编解码原理和标准,例如AV1/VVC/AVS等,有相关实践经验;
3. 熟悉视频编解码算法优化方法,例如模式决策和码率分配等关键模块,有实践经验者最佳;
4. 熟悉智能视频、AI、机器学习等技术;
5. 良好的学习和沟通能力,有责任心,有钻研精神, 有较强的分析、调试技巧;
6. 有智能编解码、图像视觉领域顶会论文;
7. 熟悉或具备以下条件者优先
1)参与过视频标准制定或相关会议。
2)熟悉汇编指令集编程和优化。
3)熟悉GPU硬件加速,熟练使用Cuda编程。
4)熟悉视频处理算法,例如增强/去燥/滤波等。
5)熟悉利用AI技术优化视频编解码算法

工作职责


多媒体技术与多模态应用团队,是蚂蚁平台技术事业群下的基础技术团队之一,团队目前五十人左右,规模也在逐年扩大。我们专注于音视频、多媒体、多模态技术的研发和规模应用,打造了蚂蚁多媒体数据全链路基础能力,构建了多媒体处理、传输、渲染、存储等基础产品,具备千万级、百倍加速的视频处理服务,支持了音视频、多模态交互技术在蚂蚁集团的大规模落地使用。
蚂蚁集团丰富多样的业务场景催生出海量的图文/视频等多媒体内容;在生成式AI技术革新与超高清视频标准普及的双重驱动下,用户对极致画质体验的需求日益提升。为此,我们致力于构建新一代智能视频处理技术体系,突破传统框架,探索编解码内核与AI/大模型的深度融合,为用户提供低成本、高画质的服务体验。
1. 负责标准图像及视频(H.265/H.266/AV1等)编解码器及端到端AI编解码器的研发,设计并优化编解码器加速算法以提升压缩效率;
2. 研发基于深度学习/多模态大模型的音视频算法,包括但不限于视频理解、质量评价、修复增强与画质重建等方向,并负责相关算法的性能优化与加速;
3. 开发智能编码优化技术,设计内容感知的视频压缩算法及动态码率分配策略,攻克低带宽场景下的画质保持难题。
包括英文材料
C+
C+++
算法+
机器学习+
CUDA+
相关职位

logo of antgroup
校招蚂蚁星计划 -

1. 负责向量数据库的架构设计和功能开发,以及在音视频检索、搜索、推荐、广告等业务上的落地; 2. 负责 ANN(Approximate Nearest Neighbor)算法的设计和验证,结合软硬件实现大容量、高吞吐、高召回、低成本的向量检索算法,持续构建业界领先的产品竞争力; 3. 支持支付宝直播、短视频检索、生物信息检索等上层多模态检索业务应用场景; 4. 跟进 RAG / AIGC 等前沿技术研究,探索向量检索在 LLM 大模型场景中的应用; 5. 持续跟踪学术界与工业界主流的向量数据库最新进展;

logo of antgroup
校招蚂蚁星计划 -

多模态交互团队是蚂蚁基础智能部门专注于最前沿多模态交互大模型研究的团队 1. 研究多模态模型预训练新范式,突破多模态对齐、跨模态推理、多模态数据挖掘和合成、效果评测等关键技术难题; 2. 打造行业领先的算法能力:如视频问答、音视频交互等; 3. 探索视觉理解大模型与音视频交互大模型技术的深度融合路径,构建支持图像、视频、语音多模态理解的通用大模型架构和大规模训练; 4. 支持音视频交互推理加速框架建设,构建完善的音视频交互大模型数据链路,探索和细化不同的音视频交互模型的评估维度、方法和指标,落地评估系统,支撑基础大模型迭代和上线; 5. 关注多模态/NLP/语音等方向的前沿技术,及时将新技术应用到产品中。

logo of antgroup
校招2026届蚂蚁星

多模态交互团队是蚂蚁基础智能部门专注于最前沿多模态交互大模型研究的团队 1. 研究多模态模型预训练新范式,突破多模态对齐、跨模态推理、多模态数据挖掘和合成、效果评测等关键技术难题; 2. 打造行业领先的算法能力:如视频问答、音视频交互等; 3. 探索视觉理解大模型与音视频交互大模型技术的深度融合路径,构建支持图像、视频、语音多模态理解的通用大模型架构和大规模训练; 4. 支持音视频交互推理加速框架建设,构建完善的音视频交互大模型数据链路,探索和细化不同的音视频交互模型的评估维度、方法和指标,落地评估系统,支撑基础大模型迭代和上线; 5. 关注多模态/NLP/语音等方向的前沿技术,及时将新技术应用到产品中。

logo of antgroup
实习蚂蚁星- Pla

多模态交互团队是蚂蚁基础智能部门专注于最前沿多模态交互大模型研究的团队 1. 研究多模态模型预训练新范式,突破多模态对齐、跨模态推理、多模态数据挖掘和合成、效果评测等关键技术难题; 2. 打造行业领先的算法能力:如视频问答、音视频交互等; 3. 探索视觉理解大模型与音视频交互大模型技术的深度融合路径,构建支持图像、视频、语音多模态理解的通用大模型架构和大规模训练; 4. 支持音视频交互推理加速框架建设,构建完善的音视频交互大模型数据链路,探索和细化不同的音视频交互模型的评估维度、方法和指标,落地评估系统,支撑基础大模型迭代和上线; 5. 关注多模态/NLP/语音等方向的前沿技术,及时将新技术应用到产品中。