logo of bytedance

字节跳动多模态智能算法专家-智能创作(北京/上海/深圳)

社招全职A259550地点:北京状态:招聘

任职要求


1、熟悉多模态大模型(VLM)、大语言模型(LLM)相关的算法技术,在相关领域有过良好的项目经验或研究经验,熟悉大模型相关的数据构造方法、Post Training算法;
2、了解LLM架构,熟悉PE工程、AI Agent、Lan…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


团队介绍:智能创作团队是字节跳动的创作场景业务中台,以AI赋能创造,致力于通过AI技术降低创作门槛,赋能视觉内容生产与创作的智能化升级。团队深度支持抖音、剪映、即梦、豆包、商业化等多个业务线,持续深耕图片与视频生成、智能剪辑、数字人、特效等多个业务场景,通过由AI驱动的智能化工具与算法,为用户提供了更智能、更便捷、更丰富的创作体验,助力普通用户轻松实现高质量内容创作,同时为专业创作者提供强大的技术支持,推动内容生态的繁荣与创新。

1、探索研究多模态理解、生成式、机器学习、强化学习、AIGC、计算机视觉、人工智能等前沿技术;
2、基于通用大模型,结合创作垂类应用场景,进行相关的数据建设、指令微调、偏好对齐、模型优化,升数据合成、模型推理 & 规划能力,构建全面客观准确的评测体系,探索提升垂类大模型能力;
3、探索突破包括而不限于多模态RAG,视觉COT与Agent等在内的多模态模型、世界模型进阶能力,构建以智能创作为核心的多模态AI Agent;推动相关的新技术、新产品落地。
包括英文材料
大模型+
算法+
还有更多 •••
相关职位

logo of bytedance
社招1年以上A214122

团队介绍:智能创作团队是字节跳动的创作场景业务中台,以AI赋能创造,致力于通过AI技术降低创作门槛,赋能视觉内容生产与创作的智能化升级。团队深度支持抖音、剪映、即梦、豆包、商业化等多个业务线,持续深耕图片与视频生成、智能剪辑、数字人、特效等多个业务场景,通过由AI驱动的智能化工具与算法,为用户提供了更智能、更便捷、更丰富的创作体验,助力普通用户轻松实现高质量内容创作,同时为专业创作者提供强大的技术支持,推动内容生态的繁荣与创新。 1、负责多模态/GAN/SD等生成相关算法研发与优化,跟进计算机视觉领域的前沿技术研究; 2、参与技术规划制定,把握图像、视频生成技术最新发展趋势; 3、推动技术在特效/素材生成/辅助设计等领域的应用。

更新于 2024-03-18北京
logo of aliyun
社招3年以上云智能集团

1. 利用生成式 AI 技术进行落地,结合机器学习及模型平台工具,提供方案评估,部署实施,技术演示等。 2. 负责项目中的机器学习算法和模型开发,对特定场景提供监督微调、强化学习等高效微调技术提升模型表现。 3. 在数据建设、语料生成、LLM模型微调、模型效果评测等领域有具体实践,并参与过相关科研课题及项目落地。 4. 基于实际客户问题提供技术支撑和优化,包含不限于推理性能优化、应用指令和工程优化。 5. 熟悉大模型主流应用框架,掌握langchain、Autogen、Agentscope、SpringAI等开源技术工具 6. 理解客户需求进行应用落地,包括逻辑推理、生成创作、代码生成等

更新于 2026-01-06成都|北京|深圳
logo of honor
社招3年以上研发类

1、研发智能体算法,提升手机影像系统中模块化组件的自动化决策能力(如场景识别、参数调优、算力分配),包括不限于多智能体协同,混合专家模型,多模态通才模型,视频理解模型开发; 2、场景理解类算法研发工作,辅助智能体、拍照、3A等下游算法的输入; 3、设计面向复杂场景的自主理解决策,优化拍摄全链路的任务调度与资源协同(如AI构图、拍照链路决策,拍照场景智能问答); 4、构建基于强化学习/RAG技术智能体框架,提升相机的智能体验,提升剪辑效率,提升用户出片率; 5、探索Agent技术与3A/AIGC/ISP等算法的深度融合,推动影像系统从“被动响应”向“主动创作”演进。

更新于 2025-05-23北京|上海|西安
logo of tongyi
校招通义2026届秋

通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备多模态、多语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从亿级到万亿级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 Coder团队致力于构建能够执行、扩展并自我进化的自主系统,通过构建超智能的coding agent/digital agent,扩展数字世界,为迈向真实世界的智能奠定基础。 工作职责: 1. 负责通用模型 Qwen 的代码能力和代码专有模型 Qwen-Coder 的构建。 (1)包括但不限于数据收集、预训练、后训练(强化学习)、评测等方向上的探索。 (2)通过Large-scale Pre-training 和 Large-scaleRL来提升Code Reasoning能力,在专家级编程竞赛超越人类,并构建 Coding Agent 来解决真实世界软件开发任务; 2. 负责Computer-Use Agent (GUI-Agent)的建设,以最直观的方式—鼠标、键盘、编码等操作来代替人类执行数字世界任务。 (1)通过Scaling海量数字世界数据结合大规模合成数据,来提升Computer-Use Agent的Grouding能力。 (2)通过Long Horizon的方式进行强化训练,结合可扩展的多模态环境反馈来提升CU Agent的Reasoning的能力。

更新于 2025-08-22北京|杭州|上海