
得物【算法】AI工程架构专家(推理优化方向)
任职要求
1. 精通Python,精通算法与数据结构,熟悉C/C++; 2. 有深度学习应用加速和优化的经验,熟悉常见的加速技术,如剪枝、量化、分布式推理等,并能够根据不同场景和硬件平台进行针对性的优化; 3. 熟悉LLM主流推理引擎,如TensorRT-LLM、vLLM等,熟悉常见的推理优化方法,如FlashAttention、PageAttention、Continuous Batching、Speculative Decoding等; 4. 具备良好的沟通和团队合作能力,能够与跨功能团队密切合作,解决问题并实现共同目标; 5. 熟悉 GPU硬件结构,有 CUDA开发、优化经验,熟悉TensorRT/Triton经验者优先。
工作职责
1. 负责开发和优化CV模型推理和大模型推理优化; 2. 持续优化推理服务性能,提升吞吐,降低延迟并优化整体成本; 3. 负责机器学习系统前瞻技术的调研和引入。
● 设计和实现高效的分布式推理架构,提升多节点、多GPU环境下的推理速度和资源利用率。开发智能的请求调度算法,确保高并发场景下的最优响应时间和吞吐量。对推理引擎的运行时环境进行深度优化,减少延迟,提高整体性能。针对多种异构AI加速硬件(如NVIDIA GPU, AMD GPU, NPU等),对核心算子进行极致性能优化,最大化算力和访存带宽利用率。 ● 探索并实现极低bit量化技术和稀疏化,减少模型存储和计算资源消耗,同时保持推理精度。探索更高效的解码算法,提升生成任务的推理速度。 ● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。引入容错机制、自动恢复和监控报警系统,保证系统的高可用性和稳定性。构建灵活的系统架构,支持动态扩展,以应对未来业务增长和技术演进的需求。 ● 持续关注并跟进业界技术发展,尤其是超长上下文、COT思维链、多模态融合等方向。积极尝试和探索新的推理优化方向,提出并验证创新性的解决方案。
1.参与基于GPU的高性能计算(HPC)项目设计与开发,负责GPU芯片(NVIDIA,AMD等)的底层性能优化与调优; 2.针对大模型推理场景,优化和扩展vLLM、SGLang等框架的核心模块,提升计算效率与资源利用率; 3.深入分析GPU硬件架构特性(如Tensor Core、显存带宽、通信机制等),设计并实现高性能算子与算法; 4.探索前沿技术方向(如混合专家模型MOE、动态计算图编译优化、JIT等),推动AI工程化落地的效率提升。

1、负责AI视频编辑方向的agent模型训练与评测,使用SFT/RLHF/post-training 等技术对视频创作进行领域知识建模; 2、提升视频创作Agent大模型的增强模型和安全能力的指令遵从能力、提升pre-trained Model在视频创作的能力,构建行业领先的视频创作专家的智能Agent。