logo of baidu

百度大模型推理工程师(J101025)

社招全职1-3年ACG地点:北京状态:招聘

任职要求


-本科及以上学历,计算机、软件工程、人工智能等相关专业,1-3年大模型推理工程落地经验,熟悉LLM推理原理
-熟练掌握 PythonLinuxShell,熟悉网络、多进程/多线程、异步并发编程
-精通大模型推理优化技术,熟练使用 vLLM/TGI/TensorRT 至少一种主流推理引擎,掌握量化(INT4/INT8)、KV Cache、PagedAttention、动态批处理等…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


-负责大语言模型、多模态模型的推理部署、性能优化与服务化落地,支撑公司MaaS模型服务平台对外稳定、低成本提供推理能力
-负责模型推理链路优化,包括推理加速、批处理调度、KV Cache优化等,持续提升吞吐、降低延迟、减少GPU资源成本
-搭建和优化大模型推理服务架构,实现模型热加载、动态扩缩容、流量隔离、负载均衡、超时重试、熔断降级,保障线上高并发、高可用、低抖动
-负责线上推理问题排查、性能瓶颈分析、稳定性治理,持续优化算力利用率、售卖率、服务SLA,支撑业务规模化商用
-配合业务、算法、平台团队,完成新模型接入、版本迭代、灰度发布、压测验收,输出标准化部署、监控、运维规范
-参与MaaS平台推理调度、资源管理、计费统计、算力运营体系建设,助力模型服务商业化落地
包括英文材料
学历+
大模型+
Python+
Linux+
Bash+
多线程+
vLLM+
TGI+
TensorRT+
还有更多 •••