小鹏汽车端到端大模型资深算法工程师/专家
任职要求
岗位要求: 1. 计算机、机器人、人工智能相关专业本科以上学位; 2. 熟悉并有端到端系统AI规划控制研究与开发经验; 3. 熟悉并有VLM/VLA大模型SFT与强化学习微调研究与…
工作职责
1. 负责自动驾驶端到端模型系统的研发与量产。
钉钉正在全面拥抱多模态AI,正在致力于将视觉大模型、边缘智能与实时视频分析深度融合,赋能智能零售、智慧工厂、智能交通等多个行业。我们拥有强大的工程化能力和创新研发氛围,期待志同道合的技术精英加入,共同推动视觉AI落地千行百业。 我们正在寻找在视觉AI领域具备真正工程化落地经验的技术人才,你将参与公司核心视觉AI系统的研发与优化,负责从算法设计、模型训练到高性能部署、大规模流式处理的全链路技术实现。具体职责包括: 1. 视觉大模型与算法开发 ○ 负责视觉大模型的后训练(Post-training)优化,包括微调、蒸馏、量化、剪枝等,提升模型在实际场景中的泛化能力与效率。 ○ 开发端侧视觉大模型,针对边缘设备进行轻量化设计与部署。 ○ 设计并实现传统CV算法(如目标检测、跟踪、姿态估计、图像增强等)与深度学习模型的融合方案。 ○ 构建视觉嵌入生成与特征提取模型,支持跨模态检索、相似性匹配等应用。 ○ 能根据实时性、性能、成本等多维约束,设计合理的算法组合与技术路线,实现最优落地效果。 ○ 在行业专家的指导下完成高质量的数据清洗和标注,建立多行业多场景的视觉AI评估框架 2. 高性能推理部署与优化 ○ 基于不同算法特性,选择并实施高并发、大吞吐的推理部署方案,熟练使用以下技术栈: ■ 推理框架:Triton Inference Server、ONNX Runtime、TensorRT ■ 部署平台:KServe + Triton / KServe + vLLM ○ 实现模型的动态批处理、自适应推理、低延迟响应,优化端到端服务性能。 ○ 负责模型格式转换、算子优化、硬件适配(GPU/TPU/NPU)及性能调优。 3. 分布式视频流处理系统构建是加分项 ○ 构建高可用、可扩展的分布式视频流处理 pipeline,支持多路视频流的实时接入与处理。 ○ 基于 Kafka + Flink 实现视频帧的流式消费、分发与状态管理。 ○ 完成视频数据的实时AI推理、结果聚合、元数据落盘,并与下游系统无缝集成。 ○ 保障系统在高负载下的稳定性、容错性与可监控性。 4. 跨团队协作与技术沉淀 ○ 与产品、业务、后端及硬件团队紧密协作,推动AI能力在真实业务场景中的落地。 ○ 输出技术文档、最佳实践,参与构建公司级AI工程化平台与工具链。
我们致力于打造银行信贷领域的新一代“智能决策大脑”。我们以行业与产业研究为锚点,以数据智能为引擎,深度融合资深信贷专家的经验与海量异构数据洞察,构建面向信贷全生命周期的领域专属决策大模型。 1.主导信贷大模型的后训练体系:通过有监督微调(SFT)、奖励模型(RM)训练、人类反馈强化学习(RLHF)、直接偏好优化(DPO)等领域领先技术,让模型不仅“会回答”,更能“可解释、答得准、判得稳、符合专家直觉”,实现与信贷业务目标的深度对齐。 2.构建垂直领域智能Agent系统的能力:能主导信贷场景下Intelligent Agent的核心框架设计,融合感知、规划、执行与持续学习机制,并通过知识图谱、RAG、NL2SQL等技术打通非结构化知识、结构化数据与自然语言交互,实现从行业洞察、风险画像到决策支持的端到端自动化。 3.打造高质量领域数据飞轮:从零构建面向信贷场景的指令与偏好数据集,设计数据配比、清洗、增强与合成策略,持续提升数据效率与泛化能力——因为你知道,好模型的背后,是更聪明的数据。 4.建立科学严谨的评估体系:构建覆盖准确性、逻辑一致性、风险敏感度、幻觉控制等多维度的自动化评测 pipeline,用数据驱动模型迭代,确保每一个版本都比上一个更可靠、更可用。 5.站在AI+金融的最前沿:紧密跟踪全球大模型的最新进展(如新型偏好学习、多Agent协作等),快速将学术突破转化为业务生产力,解决真实世界中复杂、高 stakes 的信贷决策挑战。同时将领域化的研究转化为高质量的顶会论文,形成持续学术影响力。
如果你,期望在阿里巴巴生态的广阔场景中,借助海量用户数据和先进的技术能力,打造千人千面的个性化数字人形象生产系统,为亿级用户提供高度定制化的虚拟形象服务; 如果你,期望攻克高保真语音驱动(Speech-to-Video)的核心难题,研发业界领先的唇形同步、情绪化面部表情及肢体动作生成算法,实现从音频到视频的端到端极致还原,赋予数字人如同真人般的自然表达力与情感共鸣; 如果你,期望挑战实时流式生成的技术难题,探索扩散模型与自回归模型的极速推理优化,实现低延迟、高吞吐的视频流实时产出,打破离线渲染的局限,支撑起百万级并发的实时交互直播场景; 如果你,期望突破数字人与物理世界的边界,深耕复杂物体交互(Human-Object Interaction)技术,解决数字人在手持商品、展示道具等动态交互过程中的物理规律约束、空间一致性及遮挡还原难题,让数字人在导购、演播等场景中具备真实的物体操控能力; 如果你,期望深入探索多模态统一大模型的应用,将视觉、语音、文本与动作序列深度融合,构建具备精细环境感知与逻辑理解能力的数字人系统,在复杂的电商实景中实现人-物-场的高度协同与自然对答。 加入我们,你的成果将直接应用于电商领域的核心场景——AI实时直播、智能客服、交互式数字导购,影响数以亿计的用户。在这里,你不仅是在写代码,更是在通过流式架构与交互算法,重新定义未来数字人的无限可能! 研究背景:在 AIGC 浪潮下,数字人已从早期的录像进化为动态实时生成。然而,业界仍面临三大核心挑战: 交互的自然度: 如何让数字人的肢体、表情与复杂的语音情感高度对齐,消除“恐怖谷”效应。 物理规律的缺失: 在电商直播等场景中,数字人需要手持商品、展示道具,如何解决手部交互(HOI)中的遮挡、形变及空间一致性是当前的技术深水区。 实时性的瓶颈: 扩散模型效果虽好但推理慢,如何实现低延迟的流式视频生成,是数字人从视频工具走向实时互动的必经之路。 研究课题: 基于扩散模型的高保真流式视频生成架构研究; 复杂场景下的人与物体交互(HOI)视频生成; 多模态情感驱动的全身动作与表情协同生成; 成长资源: 1、算力自由: 远离“算力焦虑”,专注于算法创新。 2、海量高质数据: 拥有业界独有的、极其丰富的多模态商业场景数据,未视频生成,HOI等前沿课题提供土壤。 3、鼓励顶会产出: 团队在保持业务领先的同时,高度重视学术沉淀。鼓励将研究成果总结并发表至CVPR、SIGGRAP、HNeurIPS 等顶会,支持参加国际学术会议,提升行业影响力。 4、工业界顶级专家的 1v1 指导: 团队由来自国内外顶尖院校的博士和工业界资深专家组成,实行“师兄制”,从学术论文投稿到工程落地全过程深度带教。
1. 面向 AI 业务的网络架构设计与演进 ○ 负责支持大规模 AI 训练/推理集群的网络架构规划与方案设计,覆盖 AI access 网络、frontend 网络、AI scale up 网络等关键环节。 ○ 结合业务场景识别网络接入、流量调度、数据分发链路中的性能和可靠性瓶颈,提出系统级优化方案。 2. 高性能多路径传输与 RDMA 方向创新 ○ 深入调研业界前沿应用层多路径传输、RDMA 及相关协议栈优化技术,系统性分析其优缺点与适用场景。 ○ 基于阿里云大规模生产环境,设计并落地面向 AI 流量的多路径传输优化机制,实现端到端的高带宽、低时延和高稳定性。 3. 网络系统研发与产品化落地 ○ 将整体技术方案拆解为可实施的技术点,完成可行性分析、技术规范制定与验收标准设计。 ○ 主导关键模块的架构设计与核心代码开发,构建可快速迭代的原型系统,验证技术路线。 ○ 在验证基础上持续进行性能优化与工程化改造,推动方案产品化落地,并支撑大规模部署和运营。 4. 稳定性与性能优化 ○ 制定并实施面向超大规模集群的稳定性保障策略,从架构设计、协议栈实现、流控/调度策略等多层面建设高可用能力。 ○ 在真实业务环境中开展端到端性能剖析与容量规划,识别热点与瓶颈,落地针对性优化措施,保障高负载下的稳定性能表现。 5. 数智一体的网络分析与智能运维 ○ 利用大数据与大语言模型,设计并研发超大规模网络分析与智能运维系统,提升网络研发、运营、运维、测试效率。 ○ 探索 AI for Network 的创新场景,如异常检测、故障根因定位、智能调度策略优化等。 6. 学术前沿跟踪与技术影响力建设 ○ 持续跟踪计算机网络、AI infra、可编程网络硬件等领域的前沿研究与产业趋势,并评估其在阿里云场景中的落地价值。 ○ 鼓励/支持在 SIGCOMM、NSDI、ATC 等顶会发表论文或输出技术分享,增强团队和个人在业界的技术影响力。