小米顶尖应届-视觉基础模型算法工程师-自动驾驶
任职要求
1. 计算机视觉、深度学习、自动驾驶等相关专业硕士及以上学历; 2. 扎实的自监督表征学习知识,熟悉MAE、DINO、Data2Vec、VideoMAE、World Model等主流方法; 3. 熟悉主流感知任务(Occupancy、Depth、Semantic Seg、Flow)建模技术; 4. 了解BEV感知架构与跨…
工作职责
1. 构建支持多感知任务的视觉主干模型(ViT/ConvNeXt 变体),支持BEV与多视角输入; 2. 研究多任务感知结构的共享编码器与分离解码器设计,提升特征共享能力与下游性能; 3. 研究多任务联合训练策略与自监督学习机制,如World model、Masked Modeling、contrastive alignment、BEV pretrain; 4. 在Occupancy、Occ Flow、Depth等方向构建高质量训练集,支持无标签预训练与有限标签适配。 【课题名称】 视觉Foundation Model 【课题内容】 研究构建统一、可泛化、可压缩的视觉感知基础模型,以支持多种下游自动驾驶任务(Depth、Semantic、Optical Flow、Occupancy、Occupancy Flow)同时学习并共享表征。该方向侧重视觉模态自监督学习,通过MAE/diffusion等手段构建可迁移感知主干,具备跨任务迁移、零样本适配能力,显著提升感知系统的通用性与数据效率。
团队介绍: 高德地图机器学习研发部是公司AI核心技术引擎,聚焦多模态大模型、视频生成与理解、图像编辑与生成等前沿领域。团队深耕人工智能技术落地,支撑亿级用户产品,同时长期投入前沿探索,在NeurIPS/ICLR/CVPR/ACL等顶会发表多篇论文,多项成果入选“最有影响力论文”榜单。我们拥有海量数据与算力资源,鼓励创新突破,诚邀你与顶尖算法专家并肩,共同定义AI的未来!如果你渴望挑战多模态与生成式AI的技术巅峰,在视频、图像、大模型的交叉领域实现突破,欢迎加入我们!团队的github页面是:https://github.com/AMAP-ML/ 我们提供 • 参与亿级用户产品的AI核心算法研发,见证技术直接赋能业务; • 与学术大牛和工业界专家共事,持续提升技术视野; • 顶配算力资源+开放创新氛围,支持前沿探索与顶会论文发表。 具体职责包括但不限于: 1. 视频生成:负责视频生成技术的前沿技术的研究,对AIGC的diffusion和auto-regressive技术有深入了解,在T2I/AIGCT2V/I2V上面有一定的研究,图文对齐,长视频生成等有一定的研究,做好视频生成在高德业务(广告,POI详情页等)中的进行落地。 2. 视频理解:能够使用和优化多模态大模型对用户上传的视频进行质量理解,标签,densecaption,视频summary等生成,作用到视频的搜索,广告,推荐等业务的落地。 3. 世界模型: 参与世界模型的构建,能够使用最新的视频生成技术,3D技术等构建符合人类物理规律的统一的世界模型,在高德的业务进行落地。 4. 紧跟技术前沿和技术沉淀,形成顶会论文和专利。
-负责在影视视效和虚拟拍摄上研发先进的CG特效落地方案,包括但不限于流体、肌肉、群集等方向 -与美术团队、动画师紧密合作,将算法集成到现有的影视制作流程中,确保算法的实用性和视觉效果达到顶尖水平 -优化算法性能,提升计算效率,满足影视制作的实时和高质量渲染需求
地点:杭州,广州 1. 与网易顶尖自研引擎研发团队合作,为使用自研引擎的项目进行客户端性能分析,定位性能问题并提供优化方案进行验证; 2. 负责制定和完善性能标准以及验证流程,助力项目研发迭代; 3. 负责分析和探索引擎各模块的性能热点,与引擎开发团队协作优化性能表现; 4. 持续构建完善的工具链、知识库和方法论,为性能优化工作提供专业高效的基础设施与解决方案支持。 5.对使用自研引擎的项目提供持续的技术验证交付服务,使引擎新特性在各个项目落地使用。