钉钉钉钉-边缘视觉AI算法工程-杭州
任职要求
必须具备: ● 学历背景:计算机、人工智能、模式识别、自动化等相关专业硕士及以上学历。 ● 经验要求:3年以上计算机视觉或AI工程化相关经验,至少主导过2个以上视觉AI项目从算法到上线的完整落地过程, 有真实边缘端视频 AI 项目落地经验,而非仅在服务器或离线环境验证算法 ● 技术能力: ○ 扎实的计算机视觉与深度学习基础,理解主流视觉模型的原理及其工程实践 ○ 熟悉至少一套完整的视觉 AI 工程技术栈(如 PyTorch + TensorRT / OpenVINO 等) ○ 端侧轻量级视觉模型的训练、微调、蒸馏和部署,特别是视觉大模型如…
工作职责
钉钉正在全面拥抱多模态AI,正在致力于将视觉大模型、边缘智能与实时视频分析深度融合,赋能智能零售、智慧餐饮、明厨亮灶、智慧工厂、智能交通等多个行业。我们拥有强大的工程化能力和创新研发氛围,期待志同道合的技术精英加入,共同推动视觉AI落地千行百业。
我们正在寻找在视觉AI领域具备真正工程化落地经验的技术人才,你将参与视觉AI系统的研发与优化,特别是边缘端视频AI服务的全链路技术实现。具体职责包括:
1. 边缘端视觉模型开发
○ 负责面向边缘算力受限环境的视觉算法设计与实现,包括目标检测、识别、跟踪、行为分析等任务
○ 能根据业务场景(如高位摄像头、远端小目标、低光/遮挡等)设计合理的模型结构与任务拆分方案
○ 熟悉模型精度与算力、延迟、功耗之间的权衡,能够在业务约束下做出工程取舍
○ 参与模型训练数据方案设计,包括数据采样、增强策略、场景覆盖与泛化评估
2. 边缘端部署与优化
○ 负责视觉模型在边缘设备上的部署,包括但不限于 ONNX / TensorRT / OpenVINO / TFLite 等推理框架
○ 针对边缘端场景进行模型优化,如量化(INT8/INT4)、裁剪、蒸馏、Batch/流水线优化
○ 能结合实际硬件(x86 / ARM / GPU / NPU)进行性能调优,明确性能瓶颈来源(算子 / IO / 调度)
○ 对模型推理的 吞吐、P95/P99 延迟、资源占用 有明确认知,并能通过实验验证优化效果
3. 边缘端视频流处理
○ 负责边缘端视频流处理链路的设计与实现,包括解码、抽帧、预处理、推理、后处理等模块
○ 熟悉常见视频协议与格式(RTSP / HLS / RTMP / H.264 / H.265),能处理真实复杂视频流问题
○ 能设计稳定、可控的多路视频并发处理架构,合理处理丢帧、抖动、延迟累积等问题
○ 对“视频帧率 × 分辨率 × 并发路数”对系统资源的影响有清晰工程认知
4. 边缘端模型管理与云边协同
○ 参与或主导边缘端模型生命周期管理,包括模型加载、版本切换、回滚与异常处理
○ 实现或对接云端模型下发与更新机制,支持 灰度发布、版本兼容、断点恢复 等能力
○ 能在边缘端系统中处理模型升级过程中的不中断服务或可控中断问题
○ 具备云边协同思维,理解边缘端与云端在算力、带宽、可靠性上的职责划分钉钉正在全面拥抱多模态AI,正在致力于将视觉大模型、边缘智能与实时视频分析深度融合,赋能智能零售、智慧工厂、智能交通等多个行业。我们拥有强大的工程化能力和创新研发氛围,期待志同道合的技术精英加入,共同推动视觉AI落地千行百业。 我们正在寻找在视觉AI领域具备真正工程化落地经验的技术人才,你将参与公司核心视觉AI系统的研发与优化,负责从算法设计、模型训练到高性能部署、大规模流式处理的全链路技术实现。具体职责包括: 1. 视觉大模型与算法开发 ○ 负责视觉大模型的后训练(Post-training)优化,包括微调、蒸馏、量化、剪枝等,提升模型在实际场景中的泛化能力与效率。 ○ 开发端侧视觉大模型,针对边缘设备进行轻量化设计与部署。 ○ 设计并实现传统CV算法(如目标检测、跟踪、姿态估计、图像增强等)与深度学习模型的融合方案。 ○ 构建视觉嵌入生成与特征提取模型,支持跨模态检索、相似性匹配等应用。 ○ 能根据实时性、性能、成本等多维约束,设计合理的算法组合与技术路线,实现最优落地效果。 ○ 在行业专家的指导下完成高质量的数据清洗和标注,建立多行业多场景的视觉AI评估框架 2. 高性能推理部署与优化 ○ 基于不同算法特性,选择并实施高并发、大吞吐的推理部署方案,熟练使用以下技术栈: ■ 推理框架:Triton Inference Server、ONNX Runtime、TensorRT ■ 部署平台:KServe + Triton / KServe + vLLM ○ 实现模型的动态批处理、自适应推理、低延迟响应,优化端到端服务性能。 ○ 负责模型格式转换、算子优化、硬件适配(GPU/TPU/NPU)及性能调优。 3. 分布式视频流处理系统构建是加分项 ○ 构建高可用、可扩展的分布式视频流处理 pipeline,支持多路视频流的实时接入与处理。 ○ 基于 Kafka + Flink 实现视频帧的流式消费、分发与状态管理。 ○ 完成视频数据的实时AI推理、结果聚合、元数据落盘,并与下游系统无缝集成。 ○ 保障系统在高负载下的稳定性、容错性与可监控性。 4. 跨团队协作与技术沉淀 ○ 与产品、业务、后端及硬件团队紧密协作,推动AI能力在真实业务场景中的落地。 ○ 输出技术文档、最佳实践,参与构建公司级AI工程化平台与工具链。
当8K视频开始承载元宇宙的入口,当每帧画面都蕴含AI的智慧,阿里巴巴正引领全球视觉计算技术革命。我们为实时音视频频打造核心引擎,在视频会议、直播场景落地AI应用,用大模型重新定义视频语义理解——这不仅是技术突破,更是人机交互范式的颠覆。加入我们,你的算法将决定数十亿用户看见的世界 职位描述: 1. AI视觉大模型突破:构建多模态视频理解体系,攻关AIGC技术在企业协作场景的落地,包括但不限于音频驱动的视频数字人,AI Agent等 2. 图像与视频质量增强:研发基于AI的实时视频通信系统,在RTC场景实现压缩失真消除、动态超分、光流插帧等技术的工业级部署 3. 智能编码标准定义:优化AV1标准的落地开发,研发基于内容感知的编码算法、屏幕内容自适应算法 4. 感知计算架构创新:设计轻量化模型蒸馏方案,实现视频及图像等AI模型在移动端的部署;探索时空注意力机制在视频语义分割中的应用,构建低至30ms延时的在线处理流水线
vivo AI研究院致力于研发业界领先的人工智能技术,通过AI技术创新持续为全球5亿+vivo用户带来无处不在的惊喜和激动人心的智慧体验。 1、围绕多模态大模型的前沿研究,聚焦跨模态融合、知识推理与表达等核心问题,推动视觉、语音、文本等多模态智能体的理论和算法创新; 2、主导大模型端侧化与高效部署技术攻关,聚焦模型轻量化算法:量化、压缩、剪枝、蒸馏,以及模型推理加速、端侧模型训练等前沿课题,推动大模型在移动终端和边缘设备的实际落地; 3、深入探索强化学习与奖励模型的新范式,致力于提升泛化性和自学习能力,推动基于自博弈(Self-Play)的下一代智能体训练方法; 4、推动生成-理解统一建模、多模态世界模型构建等创新方向,实现虚拟与现实环境中的多模态交互与理解; 5、参与国际顶级学术会议/期刊论文发表,推动前沿技术在实际产品中的转化,提升公司在AI领域的学术与产业影响力。
1. 主导端侧AI推理框架的整体架构设计与核心模块开发,支持Omni、Speech、VLM等多模态大模型在资源受限设备上的高效运行。 2. 深度优化模型推理性能,包括但不限于算子融合、内存复用、图优化、量化(INT8/INT4)、稀疏化、编译优化(如MLIR/TVM)等关键技术。 3. 针对高通、地平线、MTK、NVIDIA、华为昇腾等主流芯片平台,进行定制化适配与极致性能调优,实现低延迟、低功耗、高吞吐的推理能力。 4. 构建端侧多模态任务调度与资源管理机制,支持语音识别、视觉理解、对话生成等多模型并发执行与协同推理。 5. 与算法、系统、硬件及客户解决方案团队紧密协作,推动从模型训练到端侧部署的端到端Pipeline打通。 6. 跟踪业界前沿技术(如WebNN、ONNX Runtime Mobile、TensorRT-LLM、ExecuTorch等),引入先进工具链与优化策略。