快手AIGC数字人应用架构师/工程师-【商业化】

社招全职3-5年J00122026-02-10地点：北京状态：招聘

扫码手机上打开

任职要求

1、具备数字人直播或AIGC生成方向的工程背景，拥有丰富的项目落地经验，对行业前沿技术有深刻的认知与独到见解；
2、五年以上相关工作经验，精通C/C++，熟悉Python/Golang，具备跨平台开发与多线程编程经验；
3、具备良好的编码规范与文档撰写习惯，以及优秀的问题抽象和架构设计能力；熟悉计…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、负责应用侧的流量接入、排队管理、状态管理等核心模块的设计与研发；
2、负责数字人直播中的脚本解析、TTS语音合成、商品展示、缓存策略等关键能力的设计与研发；
3、负责处理直播与视频生产指令，实现直播间的实时图层合成、视频转码、高效渲染与稳定推流；
4、基于大语言模型（LLM）对直播间实时评论进行分析，生成互动回复内容，并以口播形式无缝合入直播流；
5、应用前沿的多模态实时互动技术，支持并实现数字人在线连麦等创新互动功能。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

C+

C+++

Python+

Go+

还有更多 •••

登录查看完整学习资料

相关职位

多模态算法工程师（Agent方向）-智能创作

社招32N1

团队介绍：智能创作团队是字节跳动的创作场景业务中台，以AI赋能创造，致力于通过AI技术降低创作门槛，赋能视觉内容生产与创作的智能化升级。团队深度支持抖音、剪映、即梦、豆包、商业化等多个业务线，持续深耕图片与视频生成、智能剪辑、数字人、特效等多个业务场景，通过由AI驱动的智能化工具与算法，为用户提供了更智能、更便捷、更丰富的创作体验，助力普通用户轻松实现高质量内容创作，同时为专业创作者提供强大的技术支持，推动内容生态的繁荣与创新。 1、探索研究多模态理解、生成式、机器学习、强化学习、AIGC、计算机视觉、人工智能等前沿技术； 2、基于通用大模型，结合创作垂类应用场景，进行相关的数据建设、指令微调、偏好对齐、模型优化，升数据合成、模型推理 & 规划能力，构建全面客观准确的评测体系，探索提升垂类大模型能力； 3、探索突破包括而不限于多模态RAG，视觉COT与Agent等在内的多模态模型、世界模型进阶能力，构建以智能创作为核心的多模态AI Agent；推动相关的新技术、新产品落地。

更新于 2020-06-30深圳

【商业化】大模型应用开发工程师

社招3年以上技术类

1.负责核心电商搜索、推荐、商业化场景大模型Agent的开发与优化工作，支持业务场景(如AI交互式对话搜索，智能导购，图文创意生成、数字人等)高效落地； 2.负责大模型Agent、RAG系统全流程研发工作，结合业务需要，与算法团队搭档，推进 AIGC 项目在各个场景落地以及效果的持续优化。 3.设计高并发分布式架构，优化检索-生成链路性能，解决高并发环境下的延迟问题，保障服务高性能和SLA。 4.探索大模型在电商推荐、搜索、广告投放等场景的落地，推进技术、产品、数据的闭环协同。

更新于 2026-05-12上海

算法工程师-AIGC数字人视频生成（T-Star Lab日常实习生）

实习淘天集团T-St

如果你，期望在阿里巴巴生态的广阔场景中，借助海量用户数据和先进的技术能力，打造千人千面的个性化数字人形象生产系统，为亿级用户提供高度定制化的虚拟形象服务；如果你，期望攻克高保真语音驱动（Speech-to-Video）的核心难题，研发业界领先的唇形同步、情绪化面部表情及肢体动作生成算法，实现从音频到视频的端到端极致还原，赋予数字人如同真人般的自然表达力与情感共鸣；如果你，期望挑战实时流式生成的技术难题，探索扩散模型与自回归模型的极速推理优化，实现低延迟、高吞吐的视频流实时产出，打破离线渲染的局限，支撑起百万级并发的实时交互直播场景；如果你，期望突破数字人与物理世界的边界，深耕复杂物体交互（Human-Object Interaction）技术，解决数字人在手持商品、展示道具等动态交互过程中的物理规律约束、空间一致性及遮挡还原难题，让数字人在导购、演播等场景中具备真实的物体操控能力；如果你，期望深入探索多模态统一大模型的应用，将视觉、语音、文本与动作序列深度融合，构建具备精细环境感知与逻辑理解能力的数字人系统，在复杂的电商实景中实现人-物-场的高度协同与自然对答。加入我们，你的成果将直接应用于电商领域的核心场景——AI实时直播、智能客服、交互式数字导购，影响数以亿计的用户。在这里，你不仅是在写代码，更是在通过流式架构与交互算法，重新定义未来数字人的无限可能！研究背景：在 AIGC 浪潮下，数字人已从早期的录像进化为动态实时生成。然而，业界仍面临三大核心挑战：交互的自然度：如何让数字人的肢体、表情与复杂的语音情感高度对齐，消除“恐怖谷”效应。物理规律的缺失：在电商直播等场景中，数字人需要手持商品、展示道具，如何解决手部交互（HOI）中的遮挡、形变及空间一致性是当前的技术深水区。实时性的瓶颈：扩散模型效果虽好但推理慢，如何实现低延迟的流式视频生成，是数字人从视频工具走向实时互动的必经之路。研究课题：基于扩散模型的高保真流式视频生成架构研究；复杂场景下的人与物体交互（HOI）视频生成；多模态情感驱动的全身动作与表情协同生成；成长资源： 1、算力自由：远离“算力焦虑”，专注于算法创新。 2、海量高质数据：拥有业界独有的、极其丰富的多模态商业场景数据，未视频生成，HOI等前沿课题提供土壤。 3、鼓励顶会产出：团队在保持业务领先的同时，高度重视学术沉淀。鼓励将研究成果总结并发表至CVPR、SIGGRAP、HNeurIPS 等顶会，支持参加国际学术会议，提升行业影响力。 4、工业界顶级专家的 1v1 指导：团队由来自国内外顶尖院校的博士和工业界资深专家组成，实行“师兄制”，从学术论文投稿到工程落地全过程深度带教。

更新于 2026-01-21北京|杭州

【北斗】大模型算法研究员（RL/推理/RAG/多模态技术）

校招核心本地商业-业

研究方向一：垂域LLM研究与构建 1.基座模型架构设计与优化：参与大语言模型基座架构的设计，研究前沿技术，如稀疏激活、混合精度训练等，同时优化模型的训练和推理流程。 2.技术创新与突破：参与前沿技术研究，如多任务学习、跨模态理解等，推动模型在复杂任务上的性能提升；探索Transformer替代架构，突破现有模型scaling law限制；同时挑战学术benchmark，为模型的性能树立新的行业标杆。 3.强化学习算法研究：参与大语言模型后训练阶段的强化学习算法研究，包括基于AI和环境反馈的强化学习（RLXF）算法。同时探索奖励模型与反馈机制，研究可泛化的细粒度过程监督和奖励建模，探索基于细粒度反馈的强化学习算法。 4.垂域模型定制化构建：领域认知智能突破，探索小样本场景自演进架构设计、可信推理机制构建等方向，同时建立面向AGI的模型评价体系新范式。 5.跨部门协作与落地：与公司数据科学家、算法工程师、产品团队紧密合作，将研究成果快速转化为实际应用，推动大语言模型在更多场景的落地。研究方向二：垂域MLLM研究与构建 1.研究多模态表征与大语言模型融合的前沿技术，设计和实现创新算法，研究异质数据的统一编解码模型，适配多种模态下的特征统一，实现高效微调与优化。 2.探索强化学习（RL）在多模态大模型中的应用，包括强化学习增强的多模态生成、跨模态对齐、偏好建模及自适应优化，提升多模态理解与推理能力。 3.持续追踪多模态与强化学习结合的最新研究进展，优化现有多模态系统架构，提升性能、效率与可扩展性，推动多模态强化学习在智能体交互、决策推理等任务中的应用。 4.构建技术评估体系，通过多场景验证推动多模态理解、生成及强化学习优化策略的落地应用，提升多模态大模型的泛化能力和实际应用价值。研究方向三：基于角色扮演的虚拟数字助理 1. 角色扮演技术（Role-Playing）：通过模型优化、Agent构建，在人设、拟人性、情感等取得显著提升。 2. 记忆管理与增强（Memory）：通过模型长上下文，记忆抽取与管理，提升系统的记忆能力。 3. 个性化技术：通过用户行为数据挖掘与建模，结合多轮对话上下文理解，分析用户情感状态，提升模型的个性化回复能力。 4. 基于Agent的数字助理：通过Agent构建和基于RL的优化，实现数字助理的能力复刻和增强

更新于 2025-05-23北京