logo of bytedance

字节跳动多模态智能算法专家-智能创作(北京/上海/深圳)

社招全职A259550地点:北京状态:招聘

任职要求


1、熟悉多模态大模型(VLM)、大语言模型(LLM)相关的算法技术,在相关领域有过良好的项目经验或研究经验,熟悉大模型相关的数据构造方法、Post Training算法;
2、了解LLM架构,熟悉PE工程、AI Agent、Lan…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


团队介绍:智能创作团队是字节跳动的创作场景业务中台,以AI赋能创造,致力于通过AI技术降低创作门槛,赋能视觉内容生产与创作的智能化升级。团队深度支持抖音、剪映、即梦、豆包、商业化等多个业务线,持续深耕图片与视频生成、智能剪辑、数字人、特效等多个业务场景,通过由AI驱动的智能化工具与算法,为用户提供了更智能、更便捷、更丰富的创作体验,助力普通用户轻松实现高质量内容创作,同时为专业创作者提供强大的技术支持,推动内容生态的繁荣与创新。

1、探索研究多模态理解、生成式、机器学习、强化学习、AIGC、计算机视觉、人工智能等前沿技术;
2、基于通用大模型,结合创作垂类应用场景,进行相关的数据建设、指令微调、偏好对齐、模型优化,升数据合成、模型推理 & 规划能力,构建全面客观准确的评测体系,探索提升垂类大模型能力;
3、探索突破包括而不限于多模态RAG,视觉COT与Agent等在内的多模态模型、世界模型进阶能力,构建以智能创作为核心的多模态AI Agent;推动相关的新技术、新产品落地。
包括英文材料
大模型+
算法+
还有更多 •••
相关职位

logo of bytedance
社招1年以上A214122

团队介绍:智能创作团队是字节跳动的创作场景业务中台,以AI赋能创造,致力于通过AI技术降低创作门槛,赋能视觉内容生产与创作的智能化升级。团队深度支持抖音、剪映、即梦、豆包、商业化等多个业务线,持续深耕图片与视频生成、智能剪辑、数字人、特效等多个业务场景,通过由AI驱动的智能化工具与算法,为用户提供了更智能、更便捷、更丰富的创作体验,助力普通用户轻松实现高质量内容创作,同时为专业创作者提供强大的技术支持,推动内容生态的繁荣与创新。 1、负责多模态/GAN/SD等生成相关算法研发与优化,跟进计算机视觉领域的前沿技术研究; 2、参与技术规划制定,把握图像、视频生成技术最新发展趋势; 3、推动技术在特效/素材生成/辅助设计等领域的应用。

更新于 2024-03-18北京
logo of honor
社招3年以上研发类

1、研发智能体算法,提升手机影像系统中模块化组件的自动化决策能力(如场景识别、参数调优、算力分配),包括不限于多智能体协同,混合专家模型,多模态通才模型,视频理解模型开发; 2、场景理解类算法研发工作,辅助智能体、拍照、3A等下游算法的输入; 3、设计面向复杂场景的自主理解决策,优化拍摄全链路的任务调度与资源协同(如AI构图、拍照链路决策,拍照场景智能问答); 4、构建基于强化学习/RAG技术智能体框架,提升相机的智能体验,提升剪辑效率,提升用户出片率; 5、探索Agent技术与3A/AIGC/ISP等算法的深度融合,推动影像系统从“被动响应”向“主动创作”演进。

更新于 2025-05-23北京|上海|西安
logo of tongyi
校招通义2026届秋

通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备多模态、多语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从亿级到万亿级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 Coder团队致力于构建能够执行、扩展并自我进化的自主系统,通过构建超智能的coding agent/digital agent,扩展数字世界,为迈向真实世界的智能奠定基础。 工作职责: 1. 负责通用模型 Qwen 的代码能力和代码专有模型 Qwen-Coder 的构建。 (1)包括但不限于数据收集、预训练、后训练(强化学习)、评测等方向上的探索。 (2)通过Large-scale Pre-training 和 Large-scaleRL来提升Code Reasoning能力,在专家级编程竞赛超越人类,并构建 Coding Agent 来解决真实世界软件开发任务; 2. 负责Computer-Use Agent (GUI-Agent)的建设,以最直观的方式—鼠标、键盘、编码等操作来代替人类执行数字世界任务。 (1)通过Scaling海量数字世界数据结合大规模合成数据,来提升Computer-Use Agent的Grouding能力。 (2)通过Long Horizon的方式进行强化训练,结合可扩展的多模态环境反馈来提升CU Agent的Reasoning的能力。

更新于 2025-08-22北京|杭州|上海
logo of amap
社招3年以上技术类-算法

部门介绍: 我们是阿里巴巴-高德的大模型和AIGC核心部门,承接公司的重点业务,包括本地生活场景中的广告创意、商品理解、内容智能创作和分发,出行场景的AI智能化等,研究领域广泛,包括但不限于多模态大模型、大语言模型、图像生成、图像编辑美化、视频生成和视频理解等,团队技术氛围好,成长空间大,拥有充足的研发资源和大量的业务应用数据,团队多篇论文入选paper digest最有影响力论文名单。团队聚焦于本地生活领域的广告和内容智能创作方向,技术栈包括,多模态大模型的理解和生成,视觉创意的可控生成,图像生成和编辑。通过在前沿技术领域的深耕,推动技术在内容智能创作(扫街榜)、广告视觉创意生成和多场景(搜推等)的内容的图文生成等方向的应用。我们正在寻找对技术有极致热情和专注的同学,在创建业务价值的同时,对前沿技术做创新的探索,共同做出有影响力的工作。 岗位职责: 1、跟踪并深入研究生成式AI领域的前沿技术,负责多模态媒体内容的理解、图像编辑以及图像生成、统一多模态理解和生成、强化学习等基础能力的研究和探索; 2、与团队成员合作,解决在本地生活领域的内容智能创作(扫街榜)以及广告创意等的应用中的算法难点,共同推动技术在实际业务中的应用和落地。

更新于 2025-11-03北京