百度大模型推理工程师（J101025）

社招全职1-3年ACG2026-06-24地点：北京状态：招聘

扫码手机上打开

任职要求

-本科及以上学历，计算机、软件工程、人工智能等相关专业，1-3年大模型推理工程落地经验，熟悉LLM推理原理
-熟练掌握 Python、Linux、Shell，熟悉网络、多进程/多线程、异步并发编程
-精通大模型推理优化技术，熟练使用 vLLM/TGI/TensorRT 至少一种主流推理引擎，掌握量化（INT4/INT8）、KV Cache、PagedAttention、动态批处理等…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

-负责大语言模型、多模态模型的推理部署、性能优化与服务化落地，支撑公司MaaS模型服务平台对外稳定、低成本提供推理能力
-负责模型推理链路优化，包括推理加速、批处理调度、KV Cache优化等，持续提升吞吐、降低延迟、减少GPU资源成本
-搭建和优化大模型推理服务架构，实现模型热加载、动态扩缩容、流量隔离、负载均衡、超时重试、熔断降级，保障线上高并发、高可用、低抖动
-负责线上推理问题排查、性能瓶颈分析、稳定性治理，持续优化算力利用率、售卖率、服务SLA，支撑业务规模化商用
-配合业务、算法、平台团队，完成新模型接入、版本迭代、灰度发布、压测验收，输出标准化部署、监控、运维规范
-参与MaaS平台推理调度、资源管理、计费统计、算力运营体系建设，助力模型服务商业化落地

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

大模型+

Python+

Linux+

Bash+

多线程+

vLLM+

TGI+

TensorRT+

还有更多 •••

登录查看完整学习资料