logo of bytedance

字节跳动多模态数据技术专家(视觉理解方向)-DMC

社招全职A52622地点:北京状态:招聘

任职要求


1、有智能对话类产品经验优先,有一定的代码基础,有心理学背景优先,了解视觉基础原理、接口和提示工程技术;
2、熟悉或亲身参与大模型训练、微调、大模型应用开发等经验,有PE能力优先;
3、能…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、基于视觉理解大模型打造的视频通话功能做相关的数据建设,负责智能对话类产品的场景构建、数据采集、风格制定,对结合视觉的对话类数据生产的质量和效率负责,紧密协同模型效果迭代;
2、依据视觉理解模型的能力场景,制定并持续优化数据生产的标准和流程,积极探索数据生产或模型效果提升的实验,获得客观严谨的结论并能优化数据生产流程;
3、能够用多种手段为标注工作提效,包括并不限于工具优化、PE撰写、标注方式创新等;
4、与算法团队、产品团队密切协作,深度理解背后的模型原理、算法逻辑,积极提供有价值的数据构造或生产的策略及建议;
5、输出与带教,协助团队其他非技术向员工,提升对多模态大模型的了解程度、教授实际应用技巧等,以辅助团队更好完成业务目标。
包括英文材料
大模型+
相关职位

logo of antgroup
社招5年以上产品类-平台型

1、医疗报告智能解读: 负责“阿福”的拍照/上传报告功能,核心解决体检单、化验单、处方单等复杂排版图片的结构化提取与医学结论分析; 2、视觉模型调优: 构建医疗文档的图文评测集(Benchmark),解决模糊拍摄、手写体识别、复杂表格对齐等长尾问题,降低模型幻觉; 3、多模态交互体验: 设计“拍一拍”后的交互流,让用户不仅看到数据,还能通过图片与阿福进行多轮问诊对话。

更新于 2026-01-15杭州
logo of amap
社招1年以上技术类-算法

我们是谁? 作为中国领先的数字地图内容及导航服务提供商,高德地图日均服务数亿用户出行决策,每日处理超百亿级位置数据。视觉技术中心是驱动高德实现厘米级高精地图、实时三维重建、多模态感知等核心技术的引擎,持续突破自动驾驶、AR导航、智慧交通等领域的技术边界。 团队gihub主页:https://github.com/amap-cvlab 为何加入我们? 挑战世界级技术难题,追求智能上限 用AI驱动国民级APP的产品迭代和颠覆式创新 岗位职责: 1、负责研发空间智能核心技术,进行室内/室外/航拍/卫片等全场景高质量空间理解、重建与生成,包括但不限于基于图像、视频、点云、Mesh和3DGS等多种模态数据的空间智能基座与应用; 2、负责多模态大模型和视频生成大模型的预训练、微调等工作,包括但不限于数字人、生成式重建及空间生成等应用方向; 3、负责大规模多模态数据集的构建、清洗与管理,搭建高效数据流水线,保障算法训练与评估; 4、负责结合具体需求,抽象出关键算法进行研发,并持续保持及引领相关技术指标。

更新于 2026-01-20北京
logo of vivo
社招3年以上研发类

1. 负责多模态大模型在图像与视频理解方向的算法研发、优化与部署; 2. 深入研究并实践多模态大模型的微调技术,以适配特定业务场景; 3. 参与构建和优化大规模多模态数据集; 4. 跟踪最新技术进展,不断优化算法性能(精度、效率、泛化能力); 5. 与团队紧密协作,推动算法在产品中的有效落地;

更新于 2025-08-05杭州|深圳
logo of vivo
社招3年以上研发类

1. 负责多模态大模型在图像与视频理解方向的算法研发、优化与部署; 2. 深入研究并实践多模态大模型的微调技术,以适配特定业务场景; 3. 参与构建和优化大规模多模态数据集; 4. 跟踪最新技术进展,不断优化算法性能(精度、效率、泛化能力); 5. 与团队紧密协作,推动算法在产品中的有效落地;

更新于 2025-07-30深圳