logo of youku

优酷优酷-AIGC算法工程师(多模态理解)-北京

社招全职1年以上地点:北京状态:招聘

任职要求


1、计算机相关专业研究生及以上学历, 扎实的计算机视觉基础,扎实的计算机视觉、自然语言理解、或大模型相关的算法基础
2、熟悉大语言模型、或多模态大语言模型、或图像/视频的理解,在视频标注、视频评价、视频审核等方向上有相关的项目研发或落地经验
3、有较强的工…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、多模态大模型的后训练和强化学习,完成视频描述生成,视频打标等视频理解任务;
2、建立文生图、图生图、文生视频、图生视频的质量评价标准,研发高精度的评价模型;
3、参与风险内容检测和商业化审核的算法研发工作;
包括英文材料
学历+
OpenCV+
大模型+
算法+
Python+
还有更多 •••
相关职位

logo of baidu
实习MEG

-协助团队进行多模态大模型相关研究,包括高效微调、多模态理解对齐、玩法开发、幻觉消除、数据治理部署优化等相关工作 -参与项目的算法验证和优化,确保算法的效率和准确性 -协助进行文献调研,总结最新的技术趋势和研究进展 -参与团队内部的技术交流和分享会议

更新于 2025-04-29北京
logo of youku
社招

本岗位旨在通过多模态理解和生成技术,辅助影视设计和制作各流程的AI提效,具体职责包括但不限于: 1、多模态大语言模型的研究和应用,包括但不限于应用视频理解、视频评价,针对特定任务的有监督微调和强化学习等 2、图像/视频AIGC应用,包括图像/视频的可控编辑和生成等

更新于 2025-05-20北京
logo of alibaba
实习淘天集团T-St

T-Star计划是阿里巴巴淘天集团顶尖人才招聘和培养项目,继承“阿里星〞的使命与愿景,面向全球招募顶尖技术人才。期待你们在淘天,通过极具挑战的前沿课题与亿级规模的海量数据、应用场景,探索和实践最前沿的Al技术,在有价值的业务场景落地技术成果。 工作内容: 1. 研发多模态大模型(MLLM),提升模型对图像/视频内容的深度语义理解、描述(Captioning)及问答能力。 2. 负责基于 Qwen-image-edit / Flux等架构的图像生成算法优化,提升生成质量、多样性和可控性。研发针对特定风格、人物或场景的 包括但不限于LoRA / ControlNet / IP-Adapter 等微调与控制技术。探索图像高清化(Upscaling)、局部重绘(Inpainting)及属性编辑等落地场景。 3. 负责文生视频(T2V)、图生视频(I2V)前沿算法的跟踪与实现(如 Sora,, Veo-3 类似架构)。优化视频生成的时空一致性、动作流畅度及长视频生成能力,探索视频风格迁移、数字人驱动及视频编辑相关技术。 T-Star实习可以带给你什么? ꔷ ①加入前沿技术探索队伍,参与顶级课题研究,有机会实现工业界项目落地。②跟企业大牛导师/学术界名导一起做有价值的课题。③丰富的技术资源、海量的数据与优秀的团队助力发paper ④有机会提前获得秋招直通T-Star的正式Offer。

更新于 2026-01-28北京|杭州
logo of alibaba
实习淘天集团日常实习

拍立淘是阿里电商核心视觉搜索算法团队,致力于为淘宝搜索核心业务打造行业领先的计算机视觉创新技术,应用于多种电商场景(如拍照搜同款、电商创意AIGC、电商大模型),堪称国内最大的视觉算法应用场景之一。我们紧随技术潮流,不断进行商业和技术创新,期待有志之士的加入,让算法发挥价值,让技术更有影响力。 【招聘方向】 1. AIGC视觉生成(包括但不限于可控图像/视频生成、图像/视频编辑、图像驱动、定制化、试衣等); 2.多模态大模型(包括但不限于大模型预训练、垂域微调SFT、RLHF、数据治理飞轮、训练部署加速等); 3.图像/多模态理解(包括商品多模态理解VG、目标检测、OCR、图像/多模态表征等),其他任何感兴趣/有价值的方向欢迎交流讨论。 【实习工作环境】 1. 充裕的GPU资源,近千张A100/V100 海量业务数据和基础能力积累,帮助高效产出; 2. 来自国内外top学校的师兄/师姐的倾力指导充分尊重实习生个人意见,自由度高; 3. 产研结合,支持鼓励实习生投递顶会论文。

更新于 2025-12-05北京|杭州