logo of bytedance

字节跳动高级大模型技术支持专家-火山引擎

社招全职3年以上A81679地点:上海状态:招聘

任职要求


1、3年以上AI领域技术支持经验,有产品运维背景优先,熟悉私有化部署全流程;
2、熟悉大模型技术原理(Transformer架构、Prompt Engineering),具备PyTorch/TensorFlow模型调试经验,掌握LoRA/P-Tuning等SFT方法;
3、熟悉K8S集群运维(服务部署、Istio配置)、网络问题排查(TCP/IP协议栈、DNS解析异…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责快速响应并处理客户关于大模型应用的技术问题(如模型效果调优、API集成、平台使用等),确保问题高效闭环;
2、主导复杂技术问题的根因分析与解决(如模型幻觉、K8S集群资源瓶颈、网络链路异常等),协调跨团队推动修复;
3、梳理客户高频问题,构建FAQ知识库和智能客服应答体系,提升问题解决效率;
4、输出技术文档,并定期开展客户与内部技术培训,提升内部团队技术能力;
5、基于客户反馈与数据分析,提炼产品优化需求(如Agent流程改进),推动功能迭代;
6、建立大模型服务容灾与应急响应机制,定期演练并优化预案。
包括英文材料
大模型+
Transformer+
Prompt+
PyTorch+
TensorFlow+
SFT+
还有更多 •••
相关职位

logo of bytedance
社招3年以上A101437

1、负责快速响应并处理客户关于大模型应用的技术问题(如模型效果调优、API集成、平台使用等),确保问题高效闭环; 2、主导复杂技术问题的根因分析与解决(如模型幻觉、K8S集群资源瓶颈、网络链路异常等),协调跨团队推动修复; 3、梳理客户高频问题,构建FAQ知识库和智能客服应答体系,提升问题解决效率; 4、输出技术文档,并定期开展客户与内部技术培训,提升内部团队技术能力; 5、基于客户反馈与数据分析,提炼产品优化需求(如Agent流程改进),推动功能迭代; 6、建立大模型服务容灾与应急响应机制,定期演练并优化预案。

更新于 2025-05-30北京
logo of bytedance
社招3年以上A219102

1、负责快速响应并处理客户关于大模型应用的技术问题(如模型效果调优、API集成、平台使用等),确保问题高效闭环; 2、主导复杂技术问题的根因分析与解决(如模型幻觉、K8S集群资源瓶颈、网络链路异常等),协调跨团队推动修复; 3、梳理客户高频问题,构建FAQ知识库和智能客服应答体系,提升问题解决效率; 4、输出技术文档,并定期开展客户与内部技术培训,提升内部团队技术能力; 5、基于客户反馈与数据分析,提炼产品优化需求(如Agent流程改进),推动功能迭代; 6、建立大模型服务容灾与应急响应机制,定期演练并优化预案。

更新于 2025-05-30深圳
logo of dji
社招3年以上运维及运维开发

1. 承担公司大规模算力集群的建设与交付,负责 GPU/XPU 等高性能加速卡资源的统一管理,支持大模型训练、在线推理、搜索、推荐等核心业务的稳定运行; 2. 熟悉主流 GPU 训练平台及分布式训练框架,了解 PyTorch、DeepSpeed、Megatron-LM 等在大规模集群中的训练特性,同时熟悉公有云上的云原生 GPU 训练平台(如 AWS、Azure、GCP、阿里云、火山引擎等)的调度、资源管理与训练流程; 3. 能够监控大规模 GPU 资源的使用情况,建立使用基线与性能指标体系,持续分析利用率、稳定性与异常模式,为资源规划、调度优化和容量管理提供依据; 4. 参与算力平台及相关服务的整体架构设计与生命周期管理,从规划、评审到部署上线,推动生产集群向更高稳定性与可持续性演进。

更新于 2026-01-28深圳
logo of xiaohongshu
社招3年以上机器学习平台

【业务介绍】 我们是小红书内稠密类模型(LLM/MLLM/SD/CV/NLP)统一的AI平台QuickSilver,负责调度公司内所有稠密类模型训练与推理资源,基于自建的训推引擎,为公司所有AI算法同学迭代业务模型提供端到端一站式AI服务;包括数据管理,模型管理,模型训练、压缩、推理、部署,服务管理,资源调度等一系列能力。 工作职责: 1、负责稠密类模型训练推理开发平台的架构设计和核心功能研发 2、设计和实现大模型训练部署流程,包括模型fine-tuning、推理服务化等 3、构建云原生架构,设计高可用、高性能的微服务体系 4、优化平台性能,提升系统稳定性和可扩展性

北京|上海|深圳