钉钉算法工程师-视觉智能与视频编解码创新
任职要求
1. 计算机视觉/模式识别/多媒体系统等方向硕士及以上学历,具有一作顶会(CVPR/ICCV/ECCV/ICML)或专利发明经验者优先 2. 精通PyTorch/TensorRT/MNN,具备CUDA/OpenCL异构计算优化经验 3. 深入理解视频编码基本原理,熟悉AV1/VVC等最新编码标准 AI能力特写: 1. 具备以下任一领域突破性成果:视频生成、神经网络压缩、多目标跟踪检测 2. 熟悉知识蒸馏、模型量化、模型剪枝、动态网络等…
工作职责
当8K视频开始承载元宇宙的入口,当每帧画面都蕴含AI的智慧,阿里巴巴正引领全球视觉计算技术革命。我们为实时音视频频打造核心引擎,在视频会议、直播场景落地AI应用,用大模型重新定义视频语义理解——这不仅是技术突破,更是人机交互范式的颠覆。加入我们,你的算法将决定数十亿用户看见的世界 职位描述: 1. AI视觉大模型突破:构建多模态视频理解体系,攻关AIGC技术在企业协作场景的落地,包括但不限于音频驱动的视频数字人,AI Agent等 2. 图像与视频质量增强:研发基于AI的实时视频通信系统,在RTC场景实现压缩失真消除、动态超分、光流插帧等技术的工业级部署 3. 智能编码标准定义:优化AV1标准的落地开发,研发基于内容感知的编码算法、屏幕内容自适应算法 4. 感知计算架构创新:设计轻量化模型蒸馏方案,实现视频及图像等AI模型在移动端的部署;探索时空注意力机制在视频语义分割中的应用,构建低至30ms延时的在线处理流水线
阿里云持续推进AI 技术深化战略布局, 围绕AI 和云计算的基础设施建设、AI基础模型平台、企业级AI应用方向构建核心场景。为此,我们正积极招募优秀人才: 具体职责包括但不限于: 1、视频编码(包括但不限于HEVC/VVC)优化:通过对主流视频编码标准的最优化实现满足不同业务场景对压缩效率,编码速度,编解码延时的需求。相关优化算法包括编码器快速算法,智能编码,码率控制,场景编码,ROI,JND编码等; 2、视频处理算法在直播和短视频等场景的研究和落地:包括但不限于视频去压缩伪影、视频去噪、视频去抖、视频去模糊、纹理效果提升、超分辨率、视频插帧等。以及针对直播成像侧的拍摄质量增强,探索提升主观体验的方法; 3、视频质量评价(VQA)优化:包括但不限于传统和AI的视频质量主客观评价方法的改进和优化,搭建多维度端和云侧视频质量评估框架,联合编码和处理实现最优的画质体验; 4、超低带宽的视频压缩与增强:针对超低带宽场景下,探索针对信号处理和语义的信息论极限; 5、视频编码与处理联合优化:在标准编码框架的基础上,借助AI领域的新技术成果来研究视频信号的表征、编码与处理,将视频前后处理与编码联合优化,提升端到端压缩效果; 6、面向人眼视觉模型的编解码和视频增强技术研究:将视频编码增强与质量评价相结合,提升人眼主观体验; 7、H.266/VVC之后的下一代视频编码标准,包括智能编码相关算法研究; 8、为VR/AR等新兴应用设计和实施新颖的视频处理、编码和质量评估算法,以推动端到端系统体验优化。
1、参与视觉生成/多模态模型(包括文本、图像、视频生成等)在 GPU、ASIC、FPGA 等异构硬件上的推理/后训练加速开发与软硬件结合的性能优化工作,包括但不限于模型量化、attention优化、显存优化、编译优化、计算与通信优化、内存管理以及多卡或多设备的并行推理方案等; 2、在主流深度学习框架(如 PyTorch)基础上,基于GPU/xPU硬件特点,对关键算子进行软硬件结合优化,提升模型运行效率; 3、与硬件以及算法工程师紧密配合,共同优化整体推理速度与资源占用; 4、跟踪学术界与工业界前沿技术(如扩散模型优化、VAE并行优化、AI编解码、面向机器的编解码等),推动软硬件协同创新。
我们正在寻找一位优秀的 Omni 端到端多模态算法工程师 加入MAI多模态团队。该岗位负责开发和优化统一的多模态模型,将语音、视觉和语言能力无缝整合到单一端到端系统中。你将参与构建下一代 AI 系统,实现跨多种模态的实时理解与生成。 核心职责 1. 端到端模型研发:设计、训练和优化统一语音、视觉、文本处理的 Omni 模型架构。 2. 多模态融合:研究跨模态表征学习与对齐技术,实现音频、视觉、文本的深度融合。 3. 语音能力建设:构建高人感的端到端语音理解与生成能力。 4. 模型架构创新:调研并实现前沿架构(如统一 Transformer、原生多模态大模型)用于全模态理解。 5. 训练流程搭建:构建大规模多模态预训练和指令微调的可扩展训练基础设施。 6. 实时性能优化:优化模型以实现低延迟、流式推理,满足生产环境需求。 7. 跨团队协作:与研究同学、产品团队和基础设施工程师紧密合作,交付端到端 AI 解决方案。
1、参与视觉生成/多模态模型(包括文本、图像、视频生成等)在 GPU、ASIC、FPGA 等异构硬件上的推理/后训练加速开发与软硬件结合的性能优化工作,包括但不限于模型量化、attention优化、显存优化、编译优化、计算与通信优化、内存管理以及多卡或多设备的并行推理方案等; 2、在主流深度学习框架(如 PyTorch)基础上,基于GPU/xPU硬件特点,对关键算子进行软硬件结合优化,提升模型运行效率; 3、与硬件以及算法工程师紧密配合,共同优化整体推理速度与资源占用; 4、跟踪学术界与工业界前沿技术(如扩散模型优化、VAE并行优化、AI编解码、面向机器的编解码等),推动软硬件协同创新。