logo of dewu

得物【算法】AI工程架构专家(推理优化方向)

社招全职技术类地点:上海状态:招聘

任职要求


1. 精通Python,精通算法数据结构,熟悉C/C++;
2. 有深度学习应用加速和优化的经验,熟悉常见的加速技术,如剪枝、量化、分布式推理等,并能够根据不同场景和硬件平台进行针对性的优化;
3. 熟悉LLM主流推理引擎,如TensorRT-LLM、vLLM等,熟悉常见的推理优化方法,如FlashAtten…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责开发和优化CV模型推理和大模型推理优化;
2. 持续优化推理服务性能,提升吞吐,降低延迟并优化整体成本;
3. 负责机器学习系统前瞻技术的调研和引入。
包括英文材料
Python+
算法+
数据结构+
C+
C+++
还有更多 •••
相关职位

logo of shein
社招3年以上信息技术类

高级/资深后台开发/技术专家(AI算法工程化)-上海南京  1. 算法工程化支持:负责支持跨境治理和商品治理方向的算法工程化落地,包括算法服务化、模型部署、性能优化、A/B测试与监控体系搭建。 2. 系统开发与维护:基于Java与Python开发高性能、可扩展的算法平台和治理系统,保障算法稳定运行和高可用性。 3. 算法研发协同:与算法研究人员、产品经理紧密协作,推动图像理解、NLP、多模态及大模型等算法从研发到线上应用的全流程闭环。 4. 数据与质量评估:建设和维护治理效果数据采集、评估和监控体系,持续迭代优化模型与策略,驱动业务降本增效。 5. 技术方案创新:关注业界最新算法工程化与MLOps实践,推动内部平台能力升级,提升算法迭代效率。

更新于 2026-01-05上海|深圳|南京
logo of aliyun
社招3年以上云智能集团

● 设计和实现高效的分布式推理架构,提升多节点、多GPU环境下的推理速度和资源利用率。开发智能的请求调度算法,确保高并发场景下的最优响应时间和吞吐量。对推理引擎的运行时环境进行深度优化,减少延迟,提高整体性能。针对多种异构AI加速硬件(如NVIDIA GPU, AMD GPU, NPU等),对核心算子进行极致性能优化,最大化算力和访存带宽利用率。 ● 探索并实现极低bit量化技术和稀疏化,减少模型存储和计算资源消耗,同时保持推理精度。探索更高效的解码算法,提升生成任务的推理速度。 ● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。引入容错机制、自动恢复和监控报警系统,保证系统的高可用性和稳定性。构建灵活的系统架构,支持动态扩展,以应对未来业务增长和技术演进的需求。 ● 持续关注并跟进业界技术发展,尤其是超长上下文、COT思维链、多模态融合等方向。积极尝试和探索新的推理优化方向,提出并验证创新性的解决方案。

更新于 2025-09-10北京|杭州|上海
logo of aliyun
社招5年以上云智能集团

● 为大语言模型和多模态模型设计和实现高效的分布式推理架构,支持多节点、多角色、多模型的异构复杂部署模式,以统一、可扩展的方式支持PD分离、多模态多模型分离等部署方式,以及灵活的配比、伸缩等能力。 ● 设计和实现智能的请求与模型调度能力,在高度动态的负载工况下以及多模态模型异构的子模型间做高效的调度,让分布式推理系统具备充分的动态性和适应能力,提升服务的整体效率和质量。 ● 对分布式和多模态推理引擎运行时进行深度优化,提升分布式推理的效率和稳定性:提升组件间协调的效率,降低请求延迟、提升服务吞吐;结合各类推理引擎层面优化以及量化等算法方法提升多模态模型推理效率,同时保证模型效果;提升系统在高并发下的鲁棒性,确保极端负载下的稳定性和性能;引入容错机制、自动恢复和监控报警系统,保证系统的高可用性。 ● 为分布式推理实现高效、通用的数据平面,以统一的方式支持各类数据传输(如PD分离中的KV cache、多模态推理中的中间结果)和存储(KV cache storage)等需求。 ● 持续关注并跟进业界技术发展,尤其是超长上下文、COT思维链、多模态融合等方向;积极尝试和探索新的推理优化方向,提出并验证创新性的解决方案。

更新于 2025-12-16北京|杭州
logo of tencent
社招2年以上CSIG技术

1.参与基于GPU的高性能计算(HPC)项目设计与开发,负责GPU芯片(NVIDIA,AMD等)的底层性能优化与调优; 2.针对大模型推理场景,优化和扩展vLLM、SGLang等框架的核心模块,提升计算效率与资源利用率; 3.深入分析GPU硬件架构特性(如Tensor Core、显存带宽、通信机制等),设计并实现高性能算子与算法; 4.探索前沿技术方向(如混合专家模型MOE、动态计算图编译优化、JIT等),推动AI工程化落地的效率提升。

更新于 2025-06-17上海