理想汽车大模型算法实习生-视觉
任职要求
1. 硕士及以上学历,计算机、人工智能或电子信息相关专业; 2. 对计算机视觉中异常检测、目标检测及语义/实例分割等方向有深入研究; 3. 熟悉多模态/视觉预训练模型,如CLIP、BLIP、DINO等,有预训练或下游任务微调经验者优先; 4. 对VLM领域前沿模型有一定了解,包括但不限于Qw…
工作职责
1. 负责工业视觉垂域下视觉大模型的模型研发工作,包括但不限于多模态或视觉预训练模型的下游任务微调、异常检测算法研究、目标检测/分割算法研究等; 2. 负责视觉语言大模型(VLM)在工业视觉领域应用的探索,包括但不限于大模型sft、强化学习微调算法研究等; 3. 跟进计算机视觉及多模态领域前沿工作,协助整理形成高质量论文。
我们正在寻找对多模态技术充满热情的算法工程师,加入我们的前沿技术研发团队。您将专注于多模态理解与生成,推动其在地图数据、信息流推荐、打车服务等场景中的落地应用,为用户提供更智能、更沉浸的服务。 主要职责 1、多模态模型研发:开发业界领先的图文多模态理解与生成模型,结合扩散模型(Diffusion Models)、Transformer架构等实现高质量场景理解和动态内容生成。 2、模型优化与性能提升:优化多模态模型的推理速度和计算效率,支持端侧部署。探索适合大模型的压缩与加速技术(包括但不限于量化、剪枝、知识蒸馏等)。 3、业务场景落地:将多模态技术应用于实际业务场景,如地图数据(道路、POI等)、信息流推荐、打车服务等。 4、前沿技术探索:持续跟踪生成式AI(Generative AI)、跨模态对齐、思维链强化学习、多模态交互、具身智能等最新技术趋势,提出创新性解决方案。
ByteIntern:面向2027届毕业生(2026年9月-2027年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:抖音研发部门负责多款大型产品的研发,包括但不限于抖音、西瓜视频、汽水音乐。加入我们,你将有机会参与亿级用户场景的开发与架构工作,使用前沿的技术助力业务一起不断成长。 1、参与构建新一代多模态大模型评测体系,覆盖3D生成、动态3D(4D)、数字人、世界模型等AIGC方向,驱动模型效果持续优化与业务规模增长; 2、基于计算机视觉(CV)、音频理解、多模态大模型(MLLM)、多模态Agent、强化学习(RLVR)等技术,构建Score Model、Reward Model等自动化评测能力,将人类感知与偏好有效建模,并融入评测闭环,提升生成模型评估与优化效率; 3、参与构建行业领先的多模态评测体系,融合元评估等方法,持续迭代评测标准与数据集构建范式,提升评测结果的可靠性、细粒度与可解释性,系统刻画模型能力边界; 4、作为算法角色,与工程和质量团队协作,将评测能力落地到实际业务场景,支撑模型训练、调优与上线决策。
参与语言大模型、视觉大模型、语音大模型、多模态大模型的评测与研究工作,具体工作内容包括但不限于: 1、从大模型应用视角出发,建设科学、全面的大模型评测体系,制定并实施评测标准与评测方案。 2、开发算法对数据进行处理、理解,建设高质量数据pipeline,并基于科学、全面的评估体系构建数据集,系统评估模型能力,产出评测报告,指引大模型相应能力的提升。 3、开发算法,利用大模型辅助、替代人工标注,准确、高效的进行半自动化、自动化的模型评测,降低评测成本、提升评测效率。 4、对模型评测中发现的模型能力短板、模型能力变化、不符合认知的异常进行研究分析,产出研究分析结论,指引大模型相应能力的提升。具体研究项包括不限于数据、模型结构、训练方式对各类模型能力的影响,以数据相关研究为例,包括不限于研究不同数据类型、不同数据配比、不同数据加入时机、不同数据规模等变量对各类模型能力的影响。 5、紧密关注大模型方向的前沿技术进展,积极主动地学习和探索新数据分析、模型训练以及模型评测方法。 6、紧密关注大模型应用落地的行业最新进展,结合行业进展思考大模型评测、训练的发展趋势,对模型评测体系、机制进行迭代。