阿里云ATH事业群-AI平台研发工程师/专家-AI视频生产-北京/杭州
任职要求
● 基础条件 1. 计算机、人工智能等相关专业本科及以上学历,硕博优先。 2. 精通 C++ / Go / Python / Rust 中至少一门语言,具备优秀的系统编程能力和代码规范意识。 3. 5年以上后端/基础架构研发经验,有多媒体引擎/视频AI平台/媒资系统/RTC系统开发经验。 ● 核心技术能力 1. 深入理解音视频技术栈:FFmpeg底层原理、编解码格式及容器格式、流媒体协议等,有视频处理pipeline/超低延时传输的开发经验。 2. 熟悉AI推理工程:熟悉PyTorch/TensorFlow框架,有TensorRT / ONNX / vLLM / Triton等推理框架实战经验;熟悉GPU硬件架构与CUDA编程,了解模型量化、显存优化等工程手段。 3. 理解主流视频生成/多模态模型的技术原理(Transformer、DiT、Spatio-Temporal、U-Net等),能与算法团队高效协作。 4. 熟悉云原生技术栈(Kubernetes、Serverless、消息队列、分布式存储等),具备分布式系统的工程落地能力。 ● 优先考虑 1. 拥有百万级用户规模的视频AI平台/视频云/RTC引擎的…
工作职责
● 岗位定位: 你将负责铸造新一代AI视频生产的基石——一个超大并发、低延迟、高倍速、可智能扩展的AI Native媒体底座。我们正在重新定义视频生产的底层范式——不是在传统媒体技术上做修补,而是重塑AI时代视频底座的标准,以AI Native的方式从重构媒体引擎、媒资系统与媒体工作流引擎,为上层无限的创意Agent提供源源不断的动力,支撑Agent高效任务调度与海量视频的7*24自动化生产。 ● 核心职责 1. AI Native媒体底座统一与架构设计 ● 设计底层媒体服务平台架构,包括媒体引擎、媒资系统、媒体工作流引擎的统一规划与演进。 ● 设计GPU驱动、云原生的媒体处理架构,实现计算(转码、合成、渲染、推理等)、存储(素材、模型等)与调度的解耦,构建统一、弹性的AI媒体技术基石。 ● 多模态AI媒资体系:设计并实现统一的多模态AI媒资内容理解与搜索服务,同时对模型、数据集、提示词、素材、成片及其关联关系进行智能管理与挖掘。 ● 设计统一的智能媒体工作流引擎:在通用AI工作流引擎的基础上融合音视频特性,以编排与驱动上层Agent定义的复杂视频生产pipeline。 2. AI Native媒体关键技术攻坚 ● 攻关视频生成、编辑、合成场景的高性能媒体处理技术,解决大规模任务下多层视频流/文件、特效、音频轨道的实时并行渲染合成难题,突破传统框架在生成式场景下的性能瓶颈。 ● 优化AI驱动的媒体内容分析能力:研发面向视频生成的智能内容理解技术,涵盖视频摘要与结构化、场景分割、镜头解析、语义对齐等,为上层Agent精准决策提供多维数据支撑。 ● 构建为实时交互而生的流媒体生成框架,从传输、模型编排、流媒体性能等维度优化端到端延时,打破"提交-等待"模式,为上层Agent实现"所言即所见"的创作体验提供技术底座。 3. 算法工程与性能优化 ● 极致化媒体处理与流式生成性能:深入GPU底层,对编解码、合成渲染等核心引擎算子极致调优,在实时流媒体生成场景将"指令-生成-反馈"循环极致压缩,实现真正的实时创作。 ● 负责多模态AI模型或ComfyUI工作流的工程化落地与推理优化,包括模型量化、并行推理、显存调度、Batching策略等。 ● AI媒体工作流调度与优化:深入分析AIGC工作流的复杂依赖关系与性能瓶颈,动态优化工作流活动的执行路径与资源分配,缩短从创意到成片的端到端耗时。 ● 建立算法性能基准体系,实现端到端生产链路的延迟/倍速、吞吐、成本三角平衡。 4. 仿真与评测自迭代系统 ● 设计并构建AI视频生产的自动化评测与仿真平台,覆盖视频生成效果评估、生产链路稳定性测试、多模态输出一致性验证等维度。 ● 引入AI驱动的评测机制,通过多模态大模型构建自动打分、缺陷识别、回归对比等智能评测能力,替代人工主观评估。 ● 构建数据飞轮闭环:评测结果→问题定位→模型/系统优化→再评测,推动平台能力自迭代持续进化。
● 岗位定位: 你将作为AI视频生产应用与Agent系统的核心建造者,负责打造这个时代最具创造力的“自主智能体”。我们正在用Agent重新定义视频生产的工作方式——不是让AI辅助人类操作,这个Agent将能够理解人类的创意意图,自主规划、调度并执行从创意到成片的整个视频创作流程。你将站在AI技术与视频创意的交汇点,设计并落地驱动这一切的Agent系统,让每个人都能指挥一个“AI制作团队”,让AI成为真正的"视频生产者"。 ● 核心职责 1. AI视频生产Agent架构设计 ● 主导设计面向视频全链路生产的Multi-Agent系统架构,拆解并定义不同角色Agent的能力边界与协作协议。 ● 构建支持复杂任务分解、动态规划、自主决策、异常恢复的Agent运行框架。 ● 设计Agent间的通信机制、状态管理与记忆体系,保障长链路生产任务的一致性、可追溯性与可干预性。 2. 多模态模型集成调优 ● 持续跟踪并将最新的图片生成、视频生成、音频生成、VL等多模态大模型集成进Agent生产链路,保持Ageng能力的持续技术领先。 ● 对模型输出质量进行系统性调优,针对视频生产场景的语义一致性、运动合理性、视觉/音频质量、叙事逻辑性、指令遵循度、情绪传达力等关键指标进行专项优化。 ● 建立模型能力评测基准体系,定义质量基线与模型SLA,构建覆盖模型选型、版本对比、回归验证的数据化决策链路。 3. 任务规划与工作流编排 ● 设计基于LLM的动态任务规划引擎,支持自然语言输入→任务图生成→并行/串行执行→结果聚合的完整链路。 ● 在平台层统一工作流引擎之上,根据不同创作意图、内容类型、生产规格,在运行时动态构建差异化的视频生产工作流。 ● 攻关长链路任务的可靠性保障:任务断点续传、局部重试、人机协同介入点设计等核心工程难题,确保复杂任务在动态工作流下依然稳定可控。 4. 提示词工程与效果优化 ● 系统性构建面向视频生产各环节的Prompt工程体系,包括分层结构化、动态上下文、领域知识、多模态提示协同对齐等精细化设计。 ● 建立Prompt版本管理、A/B评测、自动优化机制,通过数据驱动持续提升Agent各节点输出质量。 ● 探索基于RLHF、DPO等技术的偏好对齐方法,让Agent的生产风格与用户意图高度契合,逼近"零修改直出"。 5. 视频生成流程自动化 ● 端到端打通从"创意"到"成片输出"的全自动化生产流水线,以最小化人工干预节点为终极目标。 ● 构建智能质检Agent,对生成视频进行自动化质量评估、问题定位与修复决策,形成自我纠错的生产闭环。 ● 设计支持批量生产、个性化定制、多风格并行的自动化调度体系,支撑规模化内容生产的工业级需求。
悟空事业部是阿里巴巴 ATH 战略下的 AI 原生工作平台,致力于将智能体能力深度融入企业工作流,重新定义 B 端的工作方式。我们正在构建一套评测驱动的智能体自进化闭环——以评测发现问题、反哺优化、验证效果,让 Agent 在持续迭代中越来越可靠。为此,我们需要招募细致严谨、对 AI 技术充满热情的人才加入我们! 【职位描述】 1、结合业界最佳实践与 B 端业务场景,通过专家设计和数据合成等手段,动态构建高质量评测集 2、负责评测任务的调度与执行监控,对评测结果进行审核与标注,输出质量报告,推动问题闭环 3、深入理解高频业务场景(电商、门店管理、资讯情报、数据分析等),针对性地构建专项评测集,设计可量化的评测标准 4、与产品、算法团队紧密协作,将评测中发现的问题和模式转化为优化方向,推动评测流程的持续改进
1. 负责参与阿里云智能&ATH 事业群对客官网的前端开发工作,打造优质的面向开发者/企业/Prosumer 的云计算与 AI 服务平台; 2. 负责参与阿里云智能&ATH 事业群对客与内部运营产品的前端开发工作; 3. 快速构建 AI Agent/Skills 体系能力,实现开发及业务提效; 4. 参与团队基础技术建设,利用 AI 思维提升团队研发效能与质量,并沉淀对应的 AI 能力。

团队介绍: MaaS(Model as a Service)网站产品团队致力于打造行业领先的模型即服务平台,为开发者和企业客户提供模型发现、部署、调用、评测及管理的一站式体验。我们相信大模型将重塑软件开发与业务创新的方式,而一个优秀的 MaaS 平台是连接模型能力与用户应用价值的核心桥梁。 1. 竞争分析与行业洞察:持续跟踪国内外 MaaS 平台的产品动态与竞争策略关注大模型技术前沿,输出竞品分析与产品洞察,将技术趋势转化为平台产品机会 2. 平台产品规划与设计:负责 MaaS 网站平台的整体产品规划与路线制定,产品设计与持续迭代,设计平台化的产品架构与交互方案,构建模型发现 → 评估 → 部署 → 调用 → 监控的完整用户旅程。 3. 模型生态与开发者体验:从个人和企业开发者视角出发,规划并优化各类模型接入和服务,支撑开源模型、自研模型、三方模型等多元模型生态的高效运转;持续优化 API 文档、SDK 、Playground 、Skills 等开发者工具使用体验。 4. 商业化与增长:参与 MaaS 平台的商业化策略制定,设计模型计费、资源套餐、用量计量等商业化产品能力。建立产品核心指标体系,通过数据分析驱动产品决策与增长。 5. 跨团队协作:建立与横向团队紧密协同,并与工程、算法、设计、运营、解决方案等团队纵向协作,推动产品从设计到上线应用的全流程闭环。