夸克算法工程师-VLM训练
任职要求
1. 编程实力:精通 Python / C++ 等,熟悉深度学习主流框架(如 PyTorch)、混合精度、分布式训练与部署。 2. 多模态功底:在计算机视觉、跨模态理解或通用 AI 领域具备扎实的研究与落地经验。 3. 大模型经验:主导或深度参与过 >10B 参数模型…
工作职责
1. 跨模态长程预训练:设计并实现文本、图像、视频等多模态对齐与融合的长程训练策略,操控万卡级 GPU 集群,协同 Pretrain / CPT / SFT / RLVR / RLHF 全链路,对超大参数基座模型进行高效分布式优化。 2. 前沿技术攻坚:深入探索 MoE 稀疏化、训练算法与对齐范式创新、可解释性与质量监控、多模态推理、mRAG、百万 Token 级长文处理、Agent&工具链机制等底层原理与技术。 3. 高性能训练框架持续升级:与系统团队共建张量并行、流水并行、混合精度等高性能训练框架,持续提升训练吞吐与稳定性。 4. 学术与行业影响力打造:快速跟踪 NeurIPS / CVPR / ACL 等顶会成果及开源项目,输出专利与论文,树立行业技术标杆 5. 高速驱动夸克AI相关业务:赋能夸克 AI 相机、AI 搜索·深度思考、DeepResearch、创意写作、AI 助手等核心产品,实现多模态能力的快速迭代与落地。 加入我们,你将获得 1. 顶尖资源:与行业专家并肩作战,万卡算力与海量数据随手可用,持续挑战技术天花板。 2. 高速成长:极具竞争力的薪酬福利与纯粹的工程师文化,为你的职业加速。 3. 时代机遇:亲历 AGI 关键技术的诞生与规模化应用,在智能时代留下你的名字。 如果你渴望驰骋于大模型与 AGI 的蓝海,这里就是你的最佳舞台。立即加入我们,共创智能新时代!
VLM模型方向: -负责基于VLM开源大模型与自动驾驶领域结合的专用自动驾驶VLM模型设计与实现,实现对复杂场景语义理解,给出决策语义或者行为语义; -负责对应模型调研、设计、研发与落地等工作,包含服务端大模型与车端小模型。 VLM数据闭环方向: -负责VLM模型训练与评价需要的数据爬取、挖掘、自动标注等核心算法工作; -使用业界大模型进行数据生成、标注等的训练、评价数据获取相关核心算法工作。
VLM模型方向: -负责基于VLM开源大模型与自动驾驶领域结合的专用自动驾驶VLM模型设计与实现,实现对复杂场景语义理解,给出决策语义或者行为语义; -负责对应模型调研、设计、研发与落地等工作,包含服务端大模型与车端小模型。 VLM数据闭环方向: -负责VLM模型训练与评价需要的数据爬取、挖掘、自动标注等核心算法工作; -使用业界大模型进行数据生成、标注等的训练、评价数据获取相关核心算法工作。
* 基于 Vision-Language Models (VLM) 和 Large Language Models (LLM),设计与实现自动驾驶中行为预测与运动规划的基座模型(Foundation Model) * 利用多模态预训练大模型进行轨迹生成与融合,提升基座模型对其他交通参与者意图的理解与预测能力 * 针对车端/云端部署,开展模型算法层面性能优化工作,例如压缩、剪枝、蒸馏、训练和推理加速等,确保模型可用性、系统实时性与资源利用率 * 与算法、软件和系统团队紧密协作,推动模型集成及在仿真与真实车载平台的落地
-负责 GUI Agent 专用 VLA 模型的训练与微调,包括基于 Qwen-VL、Qianfan-VL 等多模态模型的架构设计与实验迭代 -主导后训练全流程(SFT → RM → RL)的算法设计与落地,具备 RLHF / DPO 等对齐方法的工程实践经验 -设计并落地 GUI 操作轨迹数据的自动化采集、清洗与标注 Pipeline,推动数据飞轮闭环,驱动模型持续进化 -主导模型推理加速与生产部署,熟悉 vLLM、TensorRT-LLM 等推理框架及量化技术,持续优化端到端时延与吞吐量 -研究并落地适用于 GUI Agent 场景的高阶推理机制(多步规划、自我反思、动作验证等),持续跟踪前沿进展