logo of tcl

TCLVLM视觉大模型算法工程师

社招全职研发技术类地点:上海状态:招聘

任职要求


1. 学历背景:计算机科学、人工智能、电子工程、自动化等相关专业的硕士或博士学历。
2. 编程能力:精通Python编程,具备扎实的数据结构算法基础;熟练掌握PyTorch,Transformers,VLLM等常见深度学习库。
3. 熟悉多模态领域的核心算法,对VLM的主流模型架构(如CLIP, BLIP, LLaVA等)有深入理解和实践经验。
4. 具备扎实的CV(计算机视觉)领域知识,熟悉ViT, SAM, Diffusion等模型。
5. 具备扎实的NLP自然语言处理)领域知识,熟悉Transformer, GPT, Llama等模型。
6. 项目经验:有实际的大模型
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 前沿算法研发:负责探索和研发最前沿的视觉语言大模型(VLM)算法,跟进并掌握领域内的最新技术动态(如InternVL Qwen-VL等)。
2. 模型训练与优化:参与或主导公司VLM模型的训练,包括但不限于数据处理、CPT、指令微调(SFT)、以及基于人类反馈的强化学习(RLHF)等全流程算法的研发与优化。
3. 多模态能力融合:致力于提升模型在图像、视频等多种视觉模态上的理解、推理和生成能力,实现视觉信息与语言能力的深度融合。
4. 应用场景落地:推动VLM技术在公司具体业务场的应用落地,解决实际业务中的挑战。
性能优化与部署:负责模型的性能优化,包括模型剪枝、量化、蒸馏等,并配合工程团队将模型高效部署到云端或嵌入式设备,实现低延迟、高吞吐的推理服务。
包括英文材料
学历+
Python+
数据结构+
算法+
PyTorch+
vLLM+
深度学习+
OpenCV+
NLP+
Transformer+
GPT+
Llama+
大模型+
还有更多 •••
相关职位

logo of xpeng
社招

【关于机器人中心】小鹏机器人中心专注于构建面向未来的人形机器人系统,融合先进的人工智能(AI)、控制、机械与系统工程,打造能感知、理解、操作并能和现实世界进行交互的下一代机器人。 【关于团队】该部门承担前沿智能方法的预研工作,专注于实现机器人三大核心智能能力:自主移动(导航)、灵巧操作和人机交互。我们深入布局大语言模型(LLM)、多模态视觉语言模型(VLM)和视觉语言行动模型(VLA),实现全流程自研,推动机器人从感知到决策的全面智能化落地。团队成员遍布深圳、上海和美国硅谷,聚集了世界一流的科研与工程人才,致力于将大模型技术真正落地到复杂、动态的物理环境中。在这里,你将:与来自 AI、机器人硬件、控制等领域的优秀工程师合作;参与推动 LLM/VLM/VLA 与机器人智能体的融合;构建能够自主学习与进化的“具身智能体”。 - 负责多模态大模型(VLM: Vision-Language Model / VLA: Vision-Language-Action Model)在人形机器人中的算法设计与开发,将VLM/VLA 应用于人形机器人的智能操作与人机交互任务; - 参与大模型的预训练、后训练(SFT + RL)及部署工作,支持机器人在复杂环境下的感知与行为能力; - 与机器人平台团队、硬件团队紧密协作,实现模型在实际机器人系统中的高效运行; - 跟踪前沿研究,推动新技术在产品中的落地应用。

更新于 2025-04-11深圳
logo of xiaohongshu
校招大模型

参与视觉语言大模型的研发工作,主要负责: 1、VIT Pretrain:提升模型感知能力,包括但不限于 Vision Encoder Pretrain 算法架构 / 多种感知能力数据构建; 2、VLM Pretrain:提升 vlm pretrain 的通用能力,探索各种不同训练阶段设计 / 不同通用数据的组织形式; 3、VLM Post train:提升 vlm 通用能力,包括但不限于合成数据 / RL 等方法; 4、生成理解统一:探索生成理解统一架构,同时提升理解和生成能力。

更新于 2025-07-02北京|上海
logo of amap
社招3年以上技术类-算法

团队介绍: 作为中国领先的数字地图内容及导航服务提供商,高德地图日均服务数亿用户出行决策,每日处理超百亿级位置数据。视觉技术中心是驱动高德实现高精度地图、三维重建、LLM/VLM,AI Agent等核心技术,持续突破自动驾驶、AR导航、具身智能、推广搜和生活服务等领域的技术边界。团队不仅在计算机视觉领域持续深耕,更将计算机视觉及AI技术在自主导航、高德打车、生活服务等多元化应用场景。 作为高德地图的核心技术驱动部门,我们以下一代三维地图引擎、多模态理解与生成、空间智能、世界模型等方向为核心,推动智能出行与真实世界连接的深度融合。 团队gihub主页: https://github.com/amap-cvlab 为何加入我们? 1. 挑战业界顶尖难题: 处理百亿级位置数据,攻克动态世界中海量POI的实时、精准感知与理解,定义未来地图的“AI之眼”。 2. 驱动国民级应用创新: 你的技术将直接应用于高德地图数亿用户依赖的扫街榜等核心功能,实现从技术突破到产品颠覆的全流程落地。 3. 置身前沿技术浪潮: 在三维地图、世界模型、具身智能等前沿领域进行深度探索与研发。 4. 预研与业务深度结合:在这里,你将同时接触到面向未来的技术预研和支撑亿级用户的业务算法。我们提供从0到1的创新探索环境,也看重从1到N的规模化落地能力。 职位描述: 我们正在寻找一位专注多模态视觉理解的算法工程师。您将主要负责利用多模态大模型技术,从海量街景图片与视频中自动发现、识别与更新地图POI信息,提升地图数据的鲜度、广度与精度,为用户提供更智能、更沉浸的出行与生活服务。本岗位兼具前瞻性技术探索与规模化业务落地的双重属性,你将有机会完整参与从创新模型研究到核心业务系统迭代的全过程。 主要职责: 1. 前瞻性模型预研与业务驱动研发:探索并研发适用于大规模街景图像/视频理解的下一代视觉-语言大模型(VLM),重点攻克POI变化发现、细粒度属性理解等关键课题,并将创新技术转化为实际业务解决方案。 2. 端到端业务落地与闭环优化: 主导多模态POI发现技术在“高德扫街榜”等核心业务中的集成、优化与全流程落地。 3. 前沿技术跟踪与创新: 持续跟踪多模态理解、视频表征学习、地理空间智能等领域的最新进展,探索技术边界发表高质量论文,实现空间感知理解的学术突破,持续迭代核心算法,达到业界sota。

更新于 2025-12-31北京
logo of xpeng
校招

1.研发业界一流物理AI系统,包括不限于模仿学习, 强化学习, vla, vlm等训练系统与算法架构; 2.参与自动驾驶系统中机器学习算法的研究、开发与优化,包括但不限于深度学习算法在端到端感知大模型、规控大模型、视觉语言大模型等方面的应用; 3.设计和实现机器学习模型的训练流程,包括选择合适的优化算法、调整超参数、评估模型性能等,确保模型在不同场景下的稳定性和可靠性。

更新于 2025-07-01北京