
巨人网络视觉研究型算法实习生
任职要求
1)在校硕士、博士,人工智能、计算机科学专业、视频生成研究方向优先; 2)熟悉扩散模型、VAE、世界模型等相关研究进展; 3)具备出色的编程能力,精通Pyt…
工作职责
聚焦探索实时可交互视频生成方向,产出高水平学术成果与影响力技术落地。 专项课题: 研究方向一:实时视频生成范式探索 1. 实时视频生成范式的探索,系统性验证AR或AR+Diffusion视频生成方案; 2. 尝试垂直领域AR生成范式和AR生成范式在数据上的scaling law和智能涌现能力; 3. DiT视频生成效率提升,包括但不限高效率、低精度损失、高压缩比的视频VAE和tokenizer、包括稀疏架构、MoE等DiT结构探索。 研究方向二:长视频生成的一致性保持 1.DIT范式,AR范式 和 AR + DiT范式下的视频生成记忆框架实现与调研,包括但不限于3D 世界模型表征记忆,预测帧缓存与重用机制 和 用户状态与意图记忆等; 2.基于隐式视觉记忆机制(跨时间追踪关键环境状态),探索无需显式3D建模的动态场景表征,支持对场景物体、光照、环境的长期记忆存储与检索。
千问学习团队致力于通过大模型技术构建智能学习产品,在大模型Posttrain技术、推理智能、agentic、coding等方向处于业界前沿 1. 负责大模型Posttrain阶段强化学习算法关键问题的探索研究,持续追踪和应用领域最新技术进展; 2. 负责大模型落地训练范式和关键技术的探索研究,包括DeepReaserch,Agentic Reasoning,奖励模型建模等; 3. 负责多模态大模型预训练、跨模态对齐、推理等领域的关键问题的探索和研究,包括视觉编码器、视觉推理等、多模态语料构建方法等; 4. 基于研究成果撰写高质量学术论文,积极参与业界交流活动,建立和维护学术界与产业界的合作关系。
团队介绍: 我们团队在地图导航的核心领域路线规划、ETA、路况预测等方向都达到行业领先的水平,有很强的用户口碑,你将与算法精英共事,提升你的技术实力和创新能力。团队承接公司核心业务,深耕人工智能前沿领域,在业内有持续影响力,多篇论文入选paper digest最有影响力论文名单。 具体职责包括但不限于: 1、在mentor的指导下,研究用于图像和视频生成/理解的先进算法,包括但不限于GANs和LDMs、多模态大模型; 2、跟踪业内最前沿的AIGC和多模态大模型技术,并将创新技术用于实际问题; 3、技术沉淀形成顶会论文和专利。
岗位介绍 我们正在寻找充满热情、富有创造力的3D生成与重建算法工程师,加入我们的前沿技术研发团队。您将专注于开发先进的3D生成算法,构建下一代三维地图渲染形态,并探索其在多领域的创新应用场景。 主要职责 1. 3D生成算法研发:负责3D物体与3D场景生成算法的开发与优化,探索高效的3D表示方式(如NeRF、3DGS等),并改进扩散或自回归生成模型,提升单图到3D物体或场景生成的精度与稳定性。 2. 3D Mesh驱动算法研发:研发基于自回归架构的3D Mesh自动绑骨与动作序列生成算法,实现通用的3D Mesh驱动。 3. 应用场景探索与落地:探索三维地图的创新应用,推动技术从研发到实际应用的转化。
我们正在寻找对多模态技术充满热情的算法工程师,加入我们的前沿技术研发团队。您将专注于多模态理解与生成,推动其在地图数据、信息流推荐、打车服务等场景中的落地应用,为用户提供更智能、更沉浸的服务。 主要职责 1、多模态模型研发:开发业界领先的图文多模态理解与生成模型,结合扩散模型(Diffusion Models)、Transformer架构等实现高质量场景理解和动态内容生成。 2、模型优化与性能提升:优化多模态模型的推理速度和计算效率,支持端侧部署。探索适合大模型的压缩与加速技术(包括但不限于量化、剪枝、知识蒸馏等)。 3、业务场景落地:将多模态技术应用于实际业务场景,如地图数据(道路、POI等)、信息流推荐、打车服务等。 4、前沿技术探索:持续跟踪生成式AI(Generative AI)、跨模态对齐、思维链强化学习、多模态交互、具身智能等最新技术趋势,提出创新性解决方案。