
西山居2D图像处理算法工程师
任职要求
1、本科及以上学历,计算机视觉、图像处理、人工智能、模式识别等相关专业; 2、熟练使用 PyTorch 框架进行图像处理模型的开发、训练与调优,具备扎实的图像处理基础(滤波、形态学操作、色彩空间转换等); 3、具备2 年及以上 2D 图像处理相关工作经验,有语义分割、贴图压缩、图像超分等方向商业项目落地经历者优先; 4、熟悉…
工作职责
1、主导游戏 2D 资源(贴图、精灵图、场景图等)的 AI 处理技术研发,重点攻克语义分割、贴图压缩、图像超分 / 修复、风格迁移等核心方向; 2、独立优化算法性能与效果,平衡处理速度、画质呈现与存储占用,适配游戏资产制作、画质优化等实际业务场景; 3、跟进计算机视觉领域前沿论文,完成算法复现、工程化落地及效果迭代,形成可复用的技术方案; 4、牵头搭建 2D 图像 AI 处理工具链或服务接口,与美术、引擎团队深度协作,提升游戏 2D 资源生产效率与最终呈现质量。

1-负责HMI 架构设计、核心功能开发与性能优化,编写相关技术文档; 2-负责HMI(3D/2D)渲染、人机交互、生成式UI等模块开发,打造技术前瞻、体验出色的HMI方案; 4-能够快速识别HMI出现渲染相关问题和故障,分析和解决; 5-协同上下游团队完成联调测试和项目交付,持续迭代和改进HMI设计,提升用户体验

1、可视化界面开发: a.设计并实现高性能、高保真的图像/视频流实时显示模块(支持多路摄像头输入); b.开发感知结果显示组件(如:2D/3D目标检测框、车道线、可行驶区域、点云渲染、轨迹预测等),确保渲染准确、流畅; c.构建实时性能监控面板,直观展示系统状态、资源占用、算法指标等关键数据(图表、仪表盘等); d.实现人机交互 (HMI) 控件:包括但不限于地图操作(缩放、平移、视角切换)、时间轴控制、场景选择、图层管理、视图切换等; e.开发数据录制与回放控制功能按钮及状态指示界面; 2、交互与用户体验: a.设计并实现流畅、直观的用户交互逻辑,提升工程师的操作效率和工具易用性; b.确保界面响应迅速,尤其在处理大规模实时数据流时保持良好的性能; c.关注用户反馈,持续优化工具链的用户体验; 3、工程化与协作: a.使用现代前端框架和最佳实践进行模块化、组件化开发,保证代码质量和可维护性; b.与后端工程师紧密协作,定义高效的数据通信接口 (API/WebSocket),确保前后端数据流稳定可靠; c.与算法工程师、测试工程师、产品经理有效沟通,理解需求并将其转化为技术实现; d.编写清晰的技术文档和接口文档; 4、性能与可靠性: a.优化前端渲染性能,解决大数据量、高频率更新带来的性能瓶颈; b.确保工具链的高可靠性和稳定性,特别是在长时间运行和数据录制场景下; c.开发必要的测试用例,参与前端自动化测试建设;
1.负责构建面向生成式AI的高质量训练数据集,涉及图像、动画、3D模型等多元美术资产的自动化处理流水线(采集、清洗、修复、增广); 2.主导数据基础平台的建设,设计可扩展的架构以支持多模态数据(如2D/3D资产)的高效管理与协同,确保数据安全、版本控制与跨团队流转效率; 3.研发智能标注工具链,集成主动学习、半自动化标注等技术,降低人工成本,提升数据标注精度与效率。
团队介绍:V-AI团队当前支持抖音直播、开放平台、V项目(AI分身/小火人等)业务方向,涵盖了自然语言处理、计算机视觉、图形学等技术领域,通过大模型技术来创造新的互动玩法、制作美术资产、提升研发运营效率等,当前已上线和开展中的项目包括直播大模型(助播/伴播/独播)、角色多模态对话大模型、研发智能助手、3D模型生成大模型、动作生成大模型等。 课题介绍: 背景:随着虚拟现实、增强现实、数字孪生等技术的快速应用,3D数字资产已成为构建沉浸式数字空间的核心要素。在影视动画、游戏开发、直播、社交等领域,3D模型与3D动作的需求呈现爆发式增长。然而,传统3D内容生产高度依赖人工建模与动作捕捉技术,存在效率低、成本高、创作门槛高等瓶颈,难以满足直播等场景中大规模、高保真、多样化、高频迭代的3D内容需求。近年来,以生成式人工智能(AIGC)为代表的大模型技术在2D图像与视频生成领域取得突破性进展,但在3D内容生成领域仍面临表征复杂、多模态数据稀缺、物理规律约束严格等难题。如何将大模型技术与3D生成任务深度融合,实现“文本/图像到3D模型”、“文本/语音到动作”的高质量生成,形成建模+驱动的一站式美术资产生成管线以适配直播场景下资产迭代速度快,品质要求高的需求是当前的重要研究内容。 课题挑战: 传统方法依赖人工建模工具或程序化生成算法,存在生成效率与创作自由度之间的固有矛盾。AI技术虽然能很好地弥补人工生成效率不足的问题,但仍然存在如下挑战 1. 表征困难:与一维文本和二维图像可以自然地实现结构化表征不同,3D模型由于其多模态(如几何、纹理、材质等)、结构复杂和高维度等特性,使得其表征更为复杂。而3D动作又与物理世界紧密相关,且动态复杂度高。因此,如何高效地表征3D几何形状和3D动作,同时确保高品质的生成,仍然是亟需突破的课题。 2. 生成困难:模型生成需同时保障结构完整性、拓扑合理性和细节丰富性;动作生成需兼顾运动多样性、物理约束与时空连续性。现有方法易出现模型畸变、贴图瑕疵、动作力度不足和多样性差等问题。 3. 数据不足:3D数据标注成本高、多模态对齐难度大,且现有公开数据集规模有限,导致大模型训练面临数据不足的问题;如何把相关模态数据(图像、视频)利用起来,提升3D模型和3D动作的生成品质也是当前的重大挑战。 4. 评估体系不完善:缺乏统一的3D生成质量量化指标,现有评价多依赖人工主观判断,难以客观衡量生成的几何精度、动作自然度与多模态语义一致性,因此建立完善、客观、可量化的评价体系是保障技术迭代的关键基石。 1、负责抖音、抖音直播及相关产品的大语言模型/多模态大模型/AIGC算法研发,如数字人、3D生成、动作生成、智能对话等相关工作; 2、负责关键场景的算法优化,构建高质量的模型和Agent系统,提升业务效果; 3、跟踪AI前沿技术进展,推动前沿技术的产品化落地。