字节跳动高级大模型技术支持专家-火山引擎

社招全职3年以上A816792025-05-30地点：上海状态：招聘

扫码手机上打开

任职要求

1、3年以上AI领域技术支持经验，有产品运维背景优先，熟悉私有化部署全流程；
2、熟悉大模型技术原理（Transformer架构、Prompt Engineering），具备PyTorch/TensorFlow模型调试经验，掌握LoRA/P-Tuning等SFT方法；
3、熟悉K8S集群运维（服务部署、Istio配置）、网络问题排查（TCP/IP协议栈、DNS解析异…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、负责快速响应并处理客户关于大模型应用的技术问题（如模型效果调优、API集成、平台使用等），确保问题高效闭环；
2、主导复杂技术问题的根因分析与解决（如模型幻觉、K8S集群资源瓶颈、网络链路异常等），协调跨团队推动修复；
3、梳理客户高频问题，构建FAQ知识库和智能客服应答体系，提升问题解决效率；
4、输出技术文档，并定期开展客户与内部技术培训，提升内部团队技术能力；
5、基于客户反馈与数据分析，提炼产品优化需求（如Agent流程改进），推动功能迭代；
6、建立大模型服务容灾与应急响应机制，定期演练并优化预案。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

大模型+

Transformer+

Prompt+

PyTorch+

TensorFlow+

SFT+

还有更多 •••

登录查看完整学习资料

相关职位

高级大模型技术支持专家-火山引擎

社招3年以上A101437

1、负责快速响应并处理客户关于大模型应用的技术问题（如模型效果调优、API集成、平台使用等），确保问题高效闭环； 2、主导复杂技术问题的根因分析与解决（如模型幻觉、K8S集群资源瓶颈、网络链路异常等），协调跨团队推动修复； 3、梳理客户高频问题，构建FAQ知识库和智能客服应答体系，提升问题解决效率； 4、输出技术文档，并定期开展客户与内部技术培训，提升内部团队技术能力； 5、基于客户反馈与数据分析，提炼产品优化需求（如Agent流程改进），推动功能迭代； 6、建立大模型服务容灾与应急响应机制，定期演练并优化预案。

更新于 2025-05-30北京

高级大模型技术支持专家-火山引擎

社招3年以上A219102

更新于 2025-05-30深圳

高级IT基础设施专家

社招3年以上运维及运维开发

1. 承担公司大规模算力集群的建设与交付，负责 GPU/XPU 等高性能加速卡资源的统一管理，支持大模型训练、在线推理、搜索、推荐等核心业务的稳定运行； 2. 熟悉主流 GPU 训练平台及分布式训练框架，了解 PyTorch、DeepSpeed、Megatron-LM 等在大规模集群中的训练特性，同时熟悉公有云上的云原生 GPU 训练平台（如 AWS、Azure、GCP、阿里云、火山引擎等）的调度、资源管理与训练流程； 3. 能够监控大规模 GPU 资源的使用情况，建立使用基线与性能指标体系，持续分析利用率、稳定性与异常模式，为资源规划、调度优化和容量管理提供依据； 4. 参与算力平台及相关服务的整体架构设计与生命周期管理，从规划、评审到部署上线，推动生产集群向更高稳定性与可持续性演进。

更新于 2026-01-28深圳

AI平台高级研发工程师（大模型专项）

社招3年以上机器学习平台

【业务介绍】我们是小红书内稠密类模型（LLM/MLLM/SD/CV/NLP）统一的AI平台QuickSilver，负责调度公司内所有稠密类模型训练与推理资源，基于自建的训推引擎，为公司所有AI算法同学迭代业务模型提供端到端一站式AI服务；包括数据管理，模型管理，模型训练、压缩、推理、部署，服务管理，资源调度等一系列能力。工作职责： 1、负责稠密类模型训练推理开发平台的架构设计和核心功能研发 2、设计和实现大模型训练部署流程，包括模型fine-tuning、推理服务化等 3、构建云原生架构，设计高可用、高性能的微服务体系 4、优化平台性能，提升系统稳定性和可扩展性

北京|上海|深圳