
美图计算机视觉实习生(世界模型方向)
任职要求
● 计算机/电子信息/数学相关专业,基础扎实,硕士及以上学历 ● 熟练掌握C/C++/Python至少一种,工程实现能力强 ● 熟悉常用CV库和深度学习框架(PyTorch/TensorFlow/Caffe等) ● 对计算机视觉和人工智能研究和落地有热情 Title: Computer Vision Intern Location: Beijing Core Technical Domains: Deep learning, computer vision, and image & video processing, with specific focus on technologies including but not limited to: image/video detection, recognition, segmentation, editing, reconstruction, 3D vision, computational imaging, image generation, AIGC, and multimodality. Key Responsibilities: 1、Theoretical Innovation ● Conduct in-depth research on cutting-edge technologies within the domain, proactively propose innovative concepts and solutions, and be responsible for drafting technical patents or academic papers. 2、Algorithm Design ● Target specific practical application scenarios, design tailored algorithms, and conduct systematic optimization to enhance the algorithms' performance, operational efficiency, and robust…
工作职责
美图影像研究院(MT Lab)专注于计算机视觉、深度学习与计算机图形学等前沿算法的研究与应用。我们为美图产品提供核心技术支持。团队汇聚顶尖人才,致力于推动影像技术的突破,让科技与艺术美好交汇。 MT Lab focuses on R&D of cutting-edge algorithms in CV, deepearning, and computer graphics. We provide core technicalsupport for Meitu products.Our team of top talent is dedicated to advancing imagingtechnology, beautifully merging science and art. 岗位名称:计算机视觉实习生 工作地点:北京 涉及技术方向:深度学习/计算机视觉/图像视频处理, 如图像和视频的检测、识别、分割、编辑、重建、3D视觉、计算成像、图像生成、AIGC、多模态等 岗位职责: ● 理论创新:研究领域最新技术,提出新idea,撰写技术专利或论文 ● 算法设计:针对实际应用场景,设计算法并提升其效果/效率/鲁棒性 ● 落地实现:核心代码实现,输出demo或SDK,根据产品反馈迭代优化
ByteIntern:面向2027届毕业生(2026年9月-2027年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:抖音研发部门负责多款大型产品的研发,包括但不限于抖音、西瓜视频、汽水音乐。加入我们,你将有机会参与亿级用户场景的开发与架构工作,使用前沿的技术助力业务一起不断成长。 1、参与构建新一代多模态大模型评测体系,覆盖3D生成、动态3D(4D)、数字人、世界模型等AIGC方向,驱动模型效果持续优化与业务规模增长; 2、基于计算机视觉(CV)、音频理解、多模态大模型(MLLM)、多模态Agent、强化学习(RLVR)等技术,构建Score Model、Reward Model等自动化评测能力,将人类感知与偏好有效建模,并融入评测闭环,提升生成模型评估与优化效率; 3、参与构建行业领先的多模态评测体系,融合元评估等方法,持续迭代评测标准与数据集构建范式,提升评测结果的可靠性、细粒度与可解释性,系统刻画模型能力边界; 4、作为算法角色,与工程和质量团队协作,将评测能力落地到实际业务场景,支撑模型训练、调优与上线决策。
1.前沿技术探索与落地:参与多模态理解、生成式模型、强化学习等前沿技术的应用研究,协助进行多模态模型的数据建设、指令微调、偏好对齐等工作,协助团队进行技术验证和原型开发。 2.多模态 Agent 能力探索:支持多模态交互的基础能力研发,探索多模态 RAG、视觉 CoT、多模态 Agent 等进阶能力;参与 GUI/游戏等虚拟世界的通用多模态 Agent 项目的研究工作。 3.数据建设与评测体系:参与数据质量评估、标注标准制定及自动化数据 Pipeline 的搭建与维护,参与图像/视频理解评估、世界模型评估方法的实验。
1、多模态数据挖掘:基于 VLM 开展自动驾驶场景理解与行为挖掘,实现复杂场景、行为模式及 corner case 自动识别发现,探索弱监督 / 自监督 / 提示工程应用,提升高价值训练数据挖掘效率; 2、数据向量化建模与分布挖掘:研究数据 Embedding 建模方法,构建场景 / 行为 / 轨迹向量空间,实现数据分布建模、长尾场景发现与覆盖度评估,设计高效数据采样、重加权与主动挖掘算法; 3、数据合成与场景重建:基于 3D Gaussian Splatting、世界模型、NeRF 等技术实现真实场景重建,生成高真实性仿真数据与 corner case 合成数据,探索世界模型与数据生成在数据闭环中的应用; 4、数据闭环系统算法研发:负责自动驾驶数据挖掘、筛选、评测与训练数据构建闭环系统,推动算法研究原型工程化落地,并在真实数据中完成效果验证。