logo of youku

优酷算法工程师-多模态生成

校招全职虎鲸文娱2026届秋季应届生招聘地点:北京 | 杭州状态:招聘

任职要求


1、专业背景:具有图像/视频生成相关领域的知识,熟悉StableDiffusion等生成算法原理,深入了解IP-adapter、ControlNet等图像控制生成算法
2、编程技能:熟悉使用Python,PyTorch,具备扎实的…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


深入研究AIGC领域内的图像和视频生成算法,重点突破多模态内容生成,长视频语义一致性等关键技术
1、参与AIGC视频生产链路模块化开发与性能优化
2、通过模型训练微调提升业务场景下的视频生成效果
3、探索控制生成、风格迁移等算法的优化与落地
包括英文材料
Stable Diffusion+
算法+
还有更多 •••
相关职位

logo of ke
社招5年以上用户技术中心

岗位职责: 1、负责 AI Agent 系统的设计、开发和优化、开发和完善基于大语言模型 (LLM) 的智能体系统,提升 Agent 的自主决策和任务执行能力; 2、负责生成式大模型指令意图理解相关工作,整体提升大模型的多轮对话指令理解能力和性能; 3、设计并实现 Agent 的工具使用接口,实现与各类外部系统和 API 的集成编排; 4、负责大模型在检索、推荐方面的系统设计实现和优化,探索Agent、RAG、领域模型调优等相关技术在业务场景落地; 5、具备模型知识、幻觉机制探究,提升模型知识水平、降低模型幻觉率; 6、能够基于开源模型,设计和开发算法,对模型进行微调,优化其参数和结构,以提高模型的泛化能力和准确性; 7、深入调研AI领域相关的前沿技术,跟踪业内大模型领域的最新进展,并寻求将最新技术应用到产品的可能性。

更新于 2025-04-02北京
logo of eleme
社招3年以上技术类-开发

1、驾驭亿级规模核心系统:负责本地零售亿级商品库的顶层架构设计与演进,主导 SPU/CSPU 等基础模型建设,支撑高并发下的搜索、选品及多渠道分发,打造行业领先的商品数据底座。 2、引领前沿的 AI 大模型落地:深度参与AIGC 在商品全生命周期的变革,利用多模态大模型重塑智能发品、自动归类、内容生成及质量质检流程,推动业务从“人工运营”向"智能自治"跃迁。 3、构建数据与智能闭环:携手算法与产品团队,建立“数据 - 模型 - 业务”的高效反馈闭环。通过RAG 知识库、批量推理及自动化实验等前沿技术,持续优化商品数据的准确性与转化效率,赋能零售搜索与智能决策。 4、探索研发新范式与极致性能:在保障系统高可用与极致稳定性的同时,率先探索 Vibe Coding、AI Agent 等新范式在研发流中的落地,提升团队整体效能,解决海量数据下的复杂工程挑战。

更新于 2026-03-27上海
logo of amap
社招3年以上技术类-算法

团队介绍: 高德地图机器学习研发部是公司AI核心技术引擎,聚焦多模态大模型、视频生成与理解、图像编辑与生成等前沿领域。团队深耕人工智能技术落地,支撑亿级用户产品,同时长期投入前沿探索,在NeurIPS/ICLR/CVPR/ACL等顶会发表多篇论文,多项成果入选“最有影响力论文”榜单。我们拥有海量数据与算力资源,鼓励创新突破,诚邀你与顶尖算法专家并肩,共同定义AI的未来!如果你渴望挑战多模态与生成式AI的技术巅峰,在视频、图像、大模型的交叉领域实现突破,欢迎加入我们!团队的github页面是:https://github.com/AMAP-ML/ 我们提供 • 参与亿级用户产品的AI核心算法研发,见证技术直接赋能业务; • 与学术大牛和工业界专家共事,持续提升技术视野; • 顶配算力资源+开放创新氛围,支持前沿探索与顶会论文发表。 具体职责包括但不限于: 1. 视频生成:负责视频生成技术的前沿技术的研究,对AIGC的diffusion和auto-regressive技术有深入了解,在T2I/AIGCT2V/I2V上面有一定的研究,图文对齐,长视频生成等有一定的研究,做好视频生成在高德业务(广告,POI详情页等)中的进行落地。 2. 视频理解:能够使用和优化多模态大模型对用户上传的视频进行质量理解,标签,densecaption,视频summary等生成,作用到视频的搜索,广告,推荐等业务的落地。 3. 世界模型: 参与世界模型的构建,能够使用最新的视频生成技术,3D技术等构建符合人类物理规律的统一的世界模型,在高德的业务进行落地。 4. 紧跟技术前沿和技术沉淀,形成顶会论文和专利。

更新于 2026-01-23北京
logo of amap
社招3年以上技术类-算法

我们正在寻找对多模态技术充满热情的算法工程师,加入我们的前沿技术研发团队。您将专注于多模态理解与生成,推动其在地图数据、信息流推荐、打车服务等场景中的落地应用,为用户提供更智能、更沉浸的服务。 主要职责 1、多模态模型研发:开发业界领先的图文多模态理解与生成模型,结合扩散模型(Diffusion Models)、Transformer架构等实现高质量场景理解和动态内容生成。 2、模型优化与性能提升:优化多模态模型的推理速度和计算效率,支持端侧部署。探索适合大模型的压缩与加速技术(包括但不限于量化、剪枝、知识蒸馏等)。 3、业务场景落地:将多模态技术应用于实际业务场景,如地图数据(道路、POI等)、信息流推荐、打车服务等。与产品、工程团队合作,推动技术从研发到上线的全流程落地。 4、前沿技术探索:持续跟踪生成式AI(Generative AI)、跨模态对齐、思维链强化学习、多模态交互、具身智能等最新技术趋势,提出创新性解决方案。

更新于 2025-04-01北京