logo of dewu

得物【算法】AI工程架构专家(推理优化方向)

社招全职技术类地点:上海状态:招聘

任职要求


1. 精通Python,精通算法数据结构,熟悉C/C++;
2. 有深度学习应用加速和优化的经验,熟悉常见的加速技术,如剪枝、量化、分布式推理等,并能够根据不同场景和硬件平台进行针对性的优化;
3. 熟悉LLM主流推理引擎,如TensorRT-LLMvLLM等,熟悉常见的推理优化方法,如FlashAttention、PageAttention、Continuous Batching、Speculative Decoding等;
4. 具备良好的沟通和团队合作能力,能够与跨功能团队密切合作,解决问题并实现共同目标;
5. 熟悉 GPU硬件结构,有 CUDA开发、优化经验,熟悉TensorRT/Triton经验者优先。

工作职责


1. 负责开发和优化CV模型推理和大模型推理优化;
2. 持续优化推理服务性能,提升吞吐,降低延迟并优化整体成本;
3. 负责机器学习系统前瞻技术的调研和引入。
包括英文材料
Python+
算法+
数据结构+
C+
C+++
深度学习+
大模型+
推理引擎+
TensorRT+
vLLM+
CUDA+
相关职位

logo of aliyun
社招3年以上云智能集团

● 设计和实现高效的分布式推理架构,提升多节点、多GPU环境下的推理速度和资源利用率。开发智能的请求调度算法,确保高并发场景下的最优响应时间和吞吐量。对推理引擎的运行时环境进行深度优化,减少延迟,提高整体性能。针对多种异构AI加速硬件(如NVIDIA GPU, AMD GPU, NPU等),对核心算子进行极致性能优化,最大化算力和访存带宽利用率。 ● 探索并实现极低bit量化技术和稀疏化,减少模型存储和计算资源消耗,同时保持推理精度。探索更高效的解码算法,提升生成任务的推理速度。 ● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。引入容错机制、自动恢复和监控报警系统,保证系统的高可用性和稳定性。构建灵活的系统架构,支持动态扩展,以应对未来业务增长和技术演进的需求。 ● 持续关注并跟进业界技术发展,尤其是超长上下文、COT思维链、多模态融合等方向。积极尝试和探索新的推理优化方向,提出并验证创新性的解决方案。

更新于 2025-09-10
logo of tencent
社招2年以上CSIG技术

1.参与基于GPU的高性能计算(HPC)项目设计与开发,负责GPU芯片(NVIDIA,AMD等)的底层性能优化与调优; 2.针对大模型推理场景,优化和扩展vLLM、SGLang等框架的核心模块,提升计算效率与资源利用率; 3.深入分析GPU硬件架构特性(如Tensor Core、显存带宽、通信机制等),设计并实现高性能算子与算法; 4.探索前沿技术方向(如混合专家模型MOE、动态计算图编译优化、JIT等),推动AI工程化落地的效率提升。

更新于 2025-06-17
logo of 10jqka
校招AI 算法类

1、负责AI视频编辑方向的agent模型训练与评测,使用SFT/RLHF/post-training 等技术对视频创作进行领域知识建模; 2、提升视频创作Agent大模型的增强模型和安全能力的指令遵从能力、提升pre-trained Model在视频创作的能力,构建行业领先的视频创作专家的智能Agent。

logo of eleme
社招2年以上技术类-开发

1.负责搜推系统和引擎的设计与开发,构建高性能、高并发的分布式架构,支撑搜索与推荐业务的核心场景; 2.负责设计高性能数据结构,支撑海量数据下各种复杂索引结构的低延迟查询; 3.负责搜推技术框架的规划与设计,负责产品的核心功能、公共核心模块的代码编写; 4.与算法团队紧密合作,负责深度学习模型的线上推理性能优化,支撑全场景各种复杂模型的在线推理业务需求; 5.探索新技术方向,参与AI工程化项目,通过技术创新解决实际问题,推动系统性能和稳定性持续改进。

更新于 2025-10-16