logo of bytedance

字节跳动多模态智能算法专家-智能创作(北京/上海/深圳)

社招全职A259550地点:北京状态:招聘

任职要求


1、熟悉多模态大模型(VLM)、大语言模型(LLM)相关的算法技术,在相关领域有过良好的项目经验或研究经验,熟悉大模型相关的数据构造方法、Post Training算法;
2、了解LLM架构,熟悉PE工程、AI AgentLangChainRAG等技术,有AI Agent应用经验、AIGC实操经验的优先;
3、有较好的创新能力和协助意识,对于不断探索新的AI技术和应用场景有强烈意愿和主观能动性,能紧跟AI领域的最新发展动态,不断提升自己的专业知识和技能。

工作职责


团队介绍:智能创作团队是字节跳动的创作场景业务中台,以AI赋能创造,致力于通过AI技术降低创作门槛,赋能视觉内容生产与创作的智能化升级。团队深度支持抖音、剪映、即梦、豆包、商业化等多个业务线,持续深耕图片与视频生成、智能剪辑、数字人、特效等多个业务场景,通过由AI驱动的智能化工具与算法,为用户提供了更智能、更便捷、更丰富的创作体验,助力普通用户轻松实现高质量内容创作,同时为专业创作者提供强大的技术支持,推动内容生态的繁荣与创新。

1、探索研究多模态理解、生成式、机器学习、强化学习、AIGC、计算机视觉、人工智能等前沿技术;
2、基于通用大模型,结合创作垂类应用场景,进行相关的数据建设、指令微调、偏好对齐、模型优化,升数据合成、模型推理 & 规划能力,构建全面客观准确的评测体系,探索提升垂类大模型能力;
3、探索突破包括而不限于多模态RAG,视觉COT与Agent等在内的多模态模型、世界模型进阶能力,构建以智能创作为核心的多模态AI Agent;推动相关的新技术、新产品落地。
包括英文材料
大模型+
算法+
AI agent+
LangChain+
RAG+
相关职位

logo of bytedance
社招1年以上A214122

团队介绍:智能创作团队是字节跳动的创作场景业务中台,以AI赋能创造,致力于通过AI技术降低创作门槛,赋能视觉内容生产与创作的智能化升级。团队深度支持抖音、剪映、即梦、豆包、商业化等多个业务线,持续深耕图片与视频生成、智能剪辑、数字人、特效等多个业务场景,通过由AI驱动的智能化工具与算法,为用户提供了更智能、更便捷、更丰富的创作体验,助力普通用户轻松实现高质量内容创作,同时为专业创作者提供强大的技术支持,推动内容生态的繁荣与创新。 1、负责多模态/GAN/SD等生成相关算法研发与优化,跟进计算机视觉领域的前沿技术研究; 2、参与技术规划制定,把握图像、视频生成技术最新发展趋势; 3、推动技术在特效/素材生成/辅助设计等领域的应用。

更新于 2024-03-18
logo of honor
社招3年以上研发类

1、研发智能体算法,提升手机影像系统中模块化组件的自动化决策能力(如场景识别、参数调优、算力分配),包括不限于多智能体协同,混合专家模型,多模态通才模型,视频理解模型开发; 2、场景理解类算法研发工作,辅助智能体、拍照、3A等下游算法的输入; 3、设计面向复杂场景的自主理解决策,优化拍摄全链路的任务调度与资源协同(如AI构图、拍照链路决策,拍照场景智能问答); 4、构建基于强化学习/RAG技术智能体框架,提升相机的智能体验,提升剪辑效率,提升用户出片率; 5、探索Agent技术与3A/AIGC/ISP等算法的深度融合,推动影像系统从“被动响应”向“主动创作”演进。

更新于 2025-05-23
logo of tongyi
校招通义2026届秋

通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备多模态、多语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从亿级到万亿级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 Coder团队致力于构建能够执行、扩展并自我进化的自主系统,通过构建超智能的coding agent/digital agent,扩展数字世界,为迈向真实世界的智能奠定基础。 工作职责: 1. 负责通用模型 Qwen 的代码能力和代码专有模型 Qwen-Coder 的构建。 (1)包括但不限于数据收集、预训练、后训练(强化学习)、评测等方向上的探索。 (2)通过Large-scale Pre-training 和 Large-scaleRL来提升Code Reasoning能力,在专家级编程竞赛超越人类,并构建 Coding Agent 来解决真实世界软件开发任务; 2. 负责Computer-Use Agent (GUI-Agent)的建设,以最直观的方式—鼠标、键盘、编码等操作来代替人类执行数字世界任务。 (1)通过Scaling海量数字世界数据结合大规模合成数据,来提升Computer-Use Agent的Grouding能力。 (2)通过Long Horizon的方式进行强化训练,结合可扩展的多模态环境反馈来提升CU Agent的Reasoning的能力。

更新于 2025-08-22
logo of amap
社招3年以上技术类-算法

部门介绍: 我们是阿里巴巴-高德的大模型和AIGC核心部门,承接公司的重点业务,包括本地生活场景中的广告创意、商品理解、内容智能创作和分发,出行场景的AI智能化等,研究领域广泛,包括但不限于多模态大模型、大语言模型、图像生成、图像编辑美化、视频生成和视频理解等,团队技术氛围好,成长空间大,拥有充足的研发资源和大量的业务应用数据,团队多篇论文入选paper digest最有影响力论文名单。 岗位职责: 1、负责多模态媒体内容的理解、编辑、生成相关新技术的应用落地和探索,解决在内容智能创作以及广告创意等的应用中的算法难点; 2、研究和应用计算机视觉(CV)等相关技术,熟悉多模态大模型或者图像编辑生成等方向的经典网络模型,了解各种常用网络训练方式及调优方式; 3、前沿技术探索:跟踪和深入探索技术研究前沿,提出创新性方案,形成论文或者专利。

更新于 2025-09-11