贝壳3d视觉算法工程师(空间理解)(J65435)
任职要求
1、具有计算机科学、人工智能、机器学习等相关领域硕士或博士学位 2、精通常见CV任务,包括但不限于检测、分割、分类、OCR、reid等 3、对于主流的多模态大模型LLava、Flamingo、InternVL、qwen-vl等有较好的理解 4、发表过计算机视觉相关顶级会议和期刊论文者,有激光雷达和图像融合经验者优先
工作职责
1、负责多模态空间理解算法的研发工作,包括但不限于激光雷达、图像、视频、文本等多模态数据处理、融合和理解 2、设计和研发多任务统一的大模型系统,包括但不限于语义分割、目标检测、OCR识别、reID等 3、支持算法在XR领域的应用,持续优化空间理解的效果和准确率 4、参与团队合作,与团队共同解决空间智能在房产行业落地的技术问题
团队介绍:TikTok是一个覆盖150个国家和地区的国际短视频平台,我们希望通过TikTok发现真实、有趣的瞬间,让生活更美好。TikTok 在全球各地设有办公室,全球总部位于洛杉矶和新加坡,办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok研发团队,旨在实现TikTok业务的研发工作,搭建及维护业界领先的产品。加入我们,你能接触到包括用户增长、社交、直播、电商C端、内容创造、内容消费等核心业务场景,支持产品在全球赛道上高速发展;也能接触到包括服务架构、基础技术等方向上的技术挑战,保障业务持续高质量、高效率、且安全地为用户服务;同时还能为不同业务场景提供全面的技术解决方案,优化各项产品指标及用户体验。 在这里, 有大牛带队与大家一同不断探索前沿, 突破想象空间。 在这里,你的每一行代码都将服务亿万用户。在这里,团队专业且纯粹,合作氛围平等且轻松。目前在北京,上海,杭州、广州、深圳分别开放多个岗位机会。 课题背景: 图形渲染技术是游戏、影视、AR/VR等多媒体应用的重要基础设施与核心技术。随着短视频、直播、元宇宙等场景的爆发式增长,以及AI生成能力对传统图形管线的冲击,用户对实时场景下,内容更泛化,制作流程的效率提升,高画质渲染呈现的需求也急剧上升。当下的移动端算力又难以满足高画质、个性化、低门槛的UGC创作诉求。随着AI技术更进一步的发展,正逐步推动着图形渲染从"确定性算法驱动"向"概率化智能生成"的迁移,为渲染技术带来了新的可能性。 课题挑战: 1、提升渲染上限:传统实时图形渲染框架诞生了近三十年,传统实时渲染框架下的各种技术&工具链已经发展得非常成熟。但随着用户对高质量、高画质的效果内容的需求越来越高,图形渲染的场景、光影复杂度也越来越高,传统的图形光栅化渲染管线越来越难以满足用户对画质效果的需求,在算力更为不足的移动端表现地尤为明显。如何应用AI技术提升渲染性能,是一个充满挑战的课题。 2、减低制作门槛:在用户互动场景中,素材、场景建模的制作成本也变得越来越高昂。用户希望低门槛生成个性化内容,但传统图形渲染技术依赖专业人士建模,门槛极高。如何应用AI技术制作低门槛、个性化资产,同样是一个充满挑战的课题。 3、工作范式革新:在短视频拍摄场景中,传统图形引擎是通过视觉算法、图形渲染算法的结合完成图像视频增强。伴随着人工智能的热潮,AI技术在视频生成领域也有了许多突破性进展。以 Sora、Luma、DreamMachine 为代表的生成式视频模型,正在重构视觉内容生产范式,存在对现有视频处理链路革新的可能性,但也面临许多挑战,如视频一致性、物理仿真正确性、运算复杂度高等等。
团队介绍:TikTok是一个覆盖150个国家和地区的国际短视频平台,我们希望通过TikTok发现真实、有趣的瞬间,让生活更美好。TikTok 在全球各地设有办公室,全球总部位于洛杉矶和新加坡,办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok研发团队,旨在实现TikTok业务的研发工作,搭建及维护业界领先的产品。加入我们,你能接触到包括用户增长、社交、直播、电商C端、内容创造、内容消费等核心业务场景,支持产品在全球赛道上高速发展;也能接触到包括服务架构、基础技术等方向上的技术挑战,保障业务持续高质量、高效率、且安全地为用户服务;同时还能为不同业务场景提供全面的技术解决方案,优化各项产品指标及用户体验。 在这里, 有大牛带队与大家一同不断探索前沿, 突破想象空间。 在这里,你的每一行代码都将服务亿万用户。在这里,团队专业且纯粹,合作氛围平等且轻松。目前在北京,上海,杭州、广州、深圳分别开放多个岗位机会。 课题背景: 图形渲染技术是游戏、影视、AR/VR等多媒体应用的重要基础设施与核心技术。随着短视频、直播、元宇宙等场景的爆发式增长,以及AI生成能力对传统图形管线的冲击,用户对实时场景下,内容更泛化,制作流程的效率提升,高画质渲染呈现的需求也急剧上升。当下的移动端算力又难以满足高画质、个性化、低门槛的UGC创作诉求。随着AI技术更进一步的发展,正逐步推动着图形渲染从"确定性算法驱动"向"概率化智能生成"的迁移,为渲染技术带来了新的可能性。 课题挑战: 1、提升渲染上限:传统实时图形渲染框架诞生了近三十年,传统实时渲染框架下的各种技术&工具链已经发展得非常成熟。但随着用户对高质量、高画质的效果内容的需求越来越高,图形渲染的场景、光影复杂度也越来越高,传统的图形光栅化渲染管线越来越难以满足用户对画质效果的需求,在算力更为不足的移动端表现地尤为明显。如何应用AI技术提升渲染性能,是一个充满挑战的课题。 2、减低制作门槛:在用户互动场景中,素材、场景建模的制作成本也变得越来越高昂。用户希望低门槛生成个性化内容,但传统图形渲染技术依赖专业人士建模,门槛极高。如何应用AI技术制作低门槛、个性化资产,同样是一个充满挑战的课题。 3、工作范式革新:在短视频拍摄场景中,传统图形引擎是通过视觉算法、图形渲染算法的结合完成图像视频增强。伴随着人工智能的热潮,AI技术在视频生成领域也有了许多突破性进展。以 Sora、Luma、DreamMachine 为代表的生成式视频模型,正在重构视觉内容生产范式,存在对现有视频处理链路革新的可能性,但也面临许多挑战,如视频一致性、物理仿真正确性、运算复杂度高等等。
团队介绍: 近年来,以大模型为核心的生成式人工智能技术发展取得了突破性进展,视觉内容创作领域展现出前所未有的技术潜力与广泛的应用前景。我们在数字人、视觉理解、2D/3D生成&编辑、人机交互等领域深耕多年,拥有丰富的学术积累与工程实践经验。过去几年,团队在顶级会议发表论文50余篇,相关成果已在阿里集团内外如教育、培训、客服、社交等多场景落地,在多家主流手机厂商中实现深度集成,也成功服务于奥运会、亚运会、春晚等盛会,累计数亿次调用。 如果你对研发规模化的AIGC解决方案感兴趣,期望在计算机视觉、图形学与机器学习领域持续创新,推动图像、视频与3D内容创作的普惠化和产业化发展,欢迎加入我们共同探索生成式AI在视觉内容创作中的无限可能。 岗位职责具体职责包括但不限于: 1.负责视觉生成模型的核心理论与前沿进展相关研究,通过算法创新与性能优化,提升多模态内容的生成质量、多样性与可控性。 2.负责图像/视频生成、编辑与理解等的核心算法研发、系统研发和产品开发,包括文生图/视频、图生图/视频、图像/视频修复、图像/视频编辑、风格迁移等。 3.负责2D/3D数字人核心算法研发、系统研发和产 品开发,包括基于2D/3D数字人重建、2D/3D数字人生成、姿态估计、表情驱动、语音驱动等。 4.负责面向场景的空间智能算法研究、产品开发,包括子弹时间系统、4D体积视频、3D感知、空间定位等。 5.探索理解生成统一的新范式,以及更加高效的多模态生成Scaling方法,包括但不限于高效attention设计、人类反馈和强化学习、模型蒸馏、训练/推理优化、多模态Tokenizer研究。

公司介绍: 文远知行(WeRide)成立于 2017 年,是全球领先的 L4 级自动驾驶科技公司,致力于“以无人驾驶改变人类出行”,已在全球超过 25 个城市开展自动驾驶研发、测试及运营,累积自动驾驶里程超1600万公里,应用场景覆盖智慧出行、智慧货运和智慧环卫,形成自动驾驶出租车、自动驾驶小巴、自动驾驶货运车、自动驾驶环卫车、高阶智能驾驶等五大产品矩阵,提供网约车、随需公交、同城货运、智能环卫、高阶智能驾驶解决方案等多种服务。 凭借“1个平台+3大场景+5大产品”的多元商业化战略,文远知行商业营收居同类自动驾驶企业之首,已与多家全球顶级主机厂和一级供应商达成战略合作伙伴关系,包括雷诺日产三菱联盟、宇通集团、博世、广汽集团等,不断为人类出行提供更多新选择。 文远知行目前的团队既有来自谷歌、微软、亚马逊、苹果、百度、滴滴的高阶工程师,也不乏刚从顶尖高校毕业的青年才俊。来到我们当中,你会发现这是一个专业、专注、有趣、有料的队伍。大家为了一个激动人心而富有挑战的目标走到一起,互相激励、脑力碰撞,为实现产品落地、创造社会价值、推进行业技术而努力。 对有抱负的工程师,还有什么比这更有意义的呢?我们虚位以待,真诚期待技术过硬、志趣相投的小伙伴加入我们! 更多信息请访问:http://www.weride.ai,或关注官方微信号:文远知行WeRide 高精地图和定位团队介绍 如果将无人车和人脑类比,高精地图和定位系统大致对应于后者中掌管空间记忆、感知和定位的部分。它的使命是为无人车提供翔实准确的道路3D几何和语义信息,让无人车对行驶环境了如指掌,从而在其中行动自如,我们同时还负责提供高速、精准的3D定位,让车辆每时每刻都知晓当前的精确位置。高精地图和定位在无人车技术栈中占据着非常重要的位置,感知、规划、控制、仿真等各大模块都要依赖它提供的道路环境以及车辆位置的信息对周围世界进行理解,做出正确的决策。文远知行的高精地图和定位团队和公司一起成长,完全自主构建了大规模高精地图,覆盖中美多个城市超过3000公里道路,提供精确达厘米级的3D结构数据以及车道线、交通信号等大量语义信息。自行研发的定位技术,基于激光雷达、相机、卫星及惯性导航等多传感器融合,能提供实时的厘米级定位,成功实现了在暴雨中自动驾驶穿越1.5公里长隧道。 在人工智能的应用中,高精地图和定位是比较独特的。我们知道,计算机视觉作为人工智能的重要分支,其核心问题分为语义理解和几何理解两大类,前者以解析图像中物体或场景的语义信息为目的,后者的目标则是重构3D场景以及对物体进行3D定位。在高精地图和定位系统中,恰恰这两大类技术都有着非常关键的应用。除此之外,我们还是高精度卫星、惯性导航等硬件的重度用户,多模态信号处理和融合更是我们的核心技术之一。因此,这是一个多学科高度综合的应用,无论你精通深度学习等机器学习技术,还是专攻3D重建、SLAM,又或是信号处理、多传感器融合高手,这里都有你一展身手的广阔空间。同时,我们致力搭建大规模、高可用的高精度地图系统,大数据和全栈开发的编程精英同样能找到用武之地。 定位算法工程师 北京或广州或深圳 与地图及定位系统相关的,基于相机、lidar、GNSS、轮速计、IMU等多种传感器的各种智能算法的研发。工作涉及但不限于:多传感器融合建图和定位算法开发、传感器校准、点云数据处理、地图元素自动识别和智能标注等。