
美图计算机视觉工程师(校招-北京)
任职要求
● 计算机/电子信息/数学相关专业,基础扎实,硕士及以上学历 ● 熟练掌握C/C++/Python至少一种,工程实现能力强 ● 熟悉常用CV库和深度学习框架(PyTorch/TensorFlow/Caffe等) ● 对计算机视觉和人工智能研究和落地有热情 Title: Computer Vision Engineer Location: Beijing Core Technical Domains: Deep learning, computer vision, and image & video processing, with specific focus on technologies including but not limited to: image/video detection, recognition, segmentation, editing, reconstruction, 3D vision, computational imaging, image generation, AIGC, and multimodality. Key Responsibilities: 1、Theoretical Innovation ● Conduct in-depth research on cutting-edge technologies within the domain, proactively propose innovative concepts and solutions, and be responsible for drafting technical patents or academic papers. 2、Algorithm Design ● Target specific practical application scenarios, design tailored algorithms, and conduct systematic optimization to enhance the algorithms' performance, operational efficiency, and robustness. 3、Implementation & Deployment ● Develop core code, deliver demos or SDKs, and continuously optimize based on product feedback. Qualifications: ● Master's degree or above in Computer Science, Electronic Information Engineering, Mathematics, or other related disciplines. Demonstrate solid foundational knowledge in relevant fields (e.g., machine learning, computer graphics) ● Possess proficiency in at least one programming language from C/C++ or Python, with excellent engineering implementation capabilities and a proven track record of delivering high-quality code. ● Have a comprehensive understanding of common Computer Vision (CV) libraries and be well-versed in deep learning frameworks (e.g., PyTorch, TensorFlow, Caffe), with the ability to apply them to practical technical tasks. ● With a strong passion for the research, development, and practical application of computer vision and artificial intelligence technologies.
工作职责
美图影像研究院(MT Lab)专注于计算机视觉、深度学习与计算机图形学等前沿算法的研究与应用。我们为美图产品提供核心技术支持。团队汇聚顶尖人才,致力于推动影像技术的突破,让科技与艺术美好交汇。 MT Lab focuses on R&D of cutting-edge algorithms in CV, deepearning, and computer graphics. We provide core technicalsupport for Meitu products.Our team of top talent is dedicated to advancing imagingtechnology, beautifully merging science and art. 岗位名称:计算机视觉工程师 工作地点:北京 涉及技术方向:深度学习/计算机视觉/图像视频处理, 如图像和视频的检测、识别、分割、编辑、重建、3D视觉、计算成像、图像生成、AIGC、多模态等 岗位职责: ● 理论创新:研究领域最新技术,提出新idea,撰写技术专利或论文 ● 算法设计:针对实际应用场景,设计算法并提升其效果/效率/鲁棒性 ● 落地实现:核心代码实现,输出demo或SDK,根据产品反馈迭代优化

近年来,AIGC 技术在图像与视频生成方向取得了突破性进展,生成对抗网络、扩散模型以及多模态大模型的快速迭代,使视觉内容的创作方式发生了革命性变化。我们专注于探索生成式 AI 在视觉生成、虚拟内容创作和沉浸式体验中的前沿应用,致力于打造具备创意表达与真实感渲染能力的新一代图像与视频生成大模型。 随着模型在高分辨率生成、长视频建模与跨模态理解上的持续演进,如何进一步提升生成质量、控制力与效率,并将前沿技术落地到实际产品场景,是我们的核心研究方向。 如果你对生成式 AI、计算机视觉和视频生成充满热情,并希望参与构建下一代 AIGC 创作平台,欢迎加入我们,共同突破视觉生成的技术边界。 岗位职责 - 图像与视频生成算法创新:围绕GAN、VAE、Diffusion Models、Video Diffusion 等前沿技术,开展图像/视频生成、编辑、控制的算法研究与优化。 - 高分辨率与长视频建模:探索多尺度建模、时序一致性与跨帧约束方法,提升长视频生成的稳定性与沉浸感。 - 多模态融合与可控生成:设计跨模态联合建模方案,实现文本、图像、视频、语音等模态的协同生成与精准控制。 - 端到端研发闭环:参与或主导从数据构建、模型训练、性能评测到应用部署的完整研发流程。 - 前沿方向探索:紧跟 LLM、Diffusion Models、AR等前沿技术,推动 AIGC 在视觉生成领域的创新与落地。

3D视觉方向: 1、负责深度学习结合的自动驾驶场景的Depth/光流/SFM等3D视觉算法研发; 2、负责深度学习结合的Camera/Lidar/Radar多传感器融合的3D视觉算法研发; 3、负责基于AI芯片的3D视觉算法的原型方案设计和优化; 感知算法方向: 1、负责面向端到端驾驶环境感知前沿算法的研发工作,包括不限于目标检测、语义分割、目标跟踪,深度估计,重建等; 2、负责面向端到端自动驾驶多传感器(包括不限于视觉/Lidar/Radar)融合感知算法的探索与研发; 3、负责基于AI芯片计算平台的端到端感知算法方案设计与优化; 4、负责基于software2.0和数据闭环思想,感知算法的构建与研发; 模型结构优化方向: 1、负责基于AI芯片的计算机视觉算法中的网络模型设计、实现和优化; 2、负责研究自动驾驶场景中端到端感知任务的模型的优化; 3、负责计算机视觉领域前沿技术中网络模型分析和研究工作;

1、负责结合深度学习的自动驾驶场景中Depth/光流/SFM等方向的3D视觉算法研发 2、负责Camera/Lidar/Radar多传感器融合的3D视觉算法研究与开发 3、开展基于AI芯片平台的3D视觉算法原型方案设计及性能优化 4、参与驾驶环境感知前沿算法的研发,包括目标检测、语义分割、目标跟踪等技术实现 5、探索自动驾驶多传感器融合感知算法的技术路径并进行工程化落地 6、基于Software 2.0和数据闭环理念构建感知算法系统 7、针对AI芯片平台开展计算机视觉任务的模型结构创新、实现与优化 8、研究并优化自动驾驶场景中的感知网络模型,提升算法效能 9、持续跟进计算机视觉领域的前沿技术,推动关键技术创新应用

base地 北京/上海/广州/深圳 关于感知方向 感知是无人驾驶中非常复杂和有趣的部分之一,你构建的是一个人工智能集大成的系统,不是一项按部就班就能完成的工作!感知软件工程师负责无人驾驶感知系统的设计和实现,应对无人驾驶中各种最有挑战的问题: 设计高效可靠的深度学习模型,在几十毫秒内精确检测和跟踪车周围200米之内所有的障碍物(人,车,非机动车辆,交通锥等),并对场景进行理解 如何设计一般性的模型和算法去处理各式各样的长尾情况和极端环境,如路面上的垃圾袋,洒水车的水花,前车掉下来的挡板 ,如大雨,大雪,雾霾,风沙等 如何保证感知模型和算法在极端的环境里的准确性和可靠性,如大雨,大雪,雾霾,风沙等 把模型优化到极致,让十几个到几十个模型在车上有限的计算资源上欢快的运行。 如何搭建一个高效可靠的计算框架,支撑一个周期内接收几十个传感器的输入,做各种同步融合,并进行几十个深度学习模型的推理 关于机器学习和算法方向 这个方向的感知工程师负责设计并实现传感器标定,障碍物检测,分类,跟踪,和场景理解等各种模型和算法,VLM视觉语言模型落地,对模型和算法进行评估和测试, 并把模型和算法部署到车上。