字节跳动高级大模型技术支持专家-火山引擎
任职要求
1、3年以上AI领域技术支持经验,有产品运维背景优先,熟悉私有化部署全流程; 2、熟悉大模型技术原理(Transformer架构、Prompt Engineering),具备PyTorch/TensorFlow模型调试经验,掌握LoRA/P-Tuning等SFT方法; 3、熟悉K8S集群运维(服务部署、Istio配置)、网络问题排查(TCP/IP协议栈、DNS解析异…
工作职责
1、负责快速响应并处理客户关于大模型应用的技术问题(如模型效果调优、API集成、平台使用等),确保问题高效闭环; 2、主导复杂技术问题的根因分析与解决(如模型幻觉、K8S集群资源瓶颈、网络链路异常等),协调跨团队推动修复; 3、梳理客户高频问题,构建FAQ知识库和智能客服应答体系,提升问题解决效率; 4、输出技术文档,并定期开展客户与内部技术培训,提升内部团队技术能力; 5、基于客户反馈与数据分析,提炼产品优化需求(如Agent流程改进),推动功能迭代; 6、建立大模型服务容灾与应急响应机制,定期演练并优化预案。
1、负责快速响应并处理客户关于大模型应用的技术问题(如模型效果调优、API集成、平台使用等),确保问题高效闭环; 2、主导复杂技术问题的根因分析与解决(如模型幻觉、K8S集群资源瓶颈、网络链路异常等),协调跨团队推动修复; 3、梳理客户高频问题,构建FAQ知识库和智能客服应答体系,提升问题解决效率; 4、输出技术文档,并定期开展客户与内部技术培训,提升内部团队技术能力; 5、基于客户反馈与数据分析,提炼产品优化需求(如Agent流程改进),推动功能迭代; 6、建立大模型服务容灾与应急响应机制,定期演练并优化预案。
1、负责快速响应并处理客户关于大模型应用的技术问题(如模型效果调优、API集成、平台使用等),确保问题高效闭环; 2、主导复杂技术问题的根因分析与解决(如模型幻觉、K8S集群资源瓶颈、网络链路异常等),协调跨团队推动修复; 3、梳理客户高频问题,构建FAQ知识库和智能客服应答体系,提升问题解决效率; 4、输出技术文档,并定期开展客户与内部技术培训,提升内部团队技术能力; 5、基于客户反馈与数据分析,提炼产品优化需求(如Agent流程改进),推动功能迭代; 6、建立大模型服务容灾与应急响应机制,定期演练并优化预案。
1. 承担公司大规模算力集群的建设与交付,负责 GPU/XPU 等高性能加速卡资源的统一管理,支持大模型训练、在线推理、搜索、推荐等核心业务的稳定运行; 2. 熟悉主流 GPU 训练平台及分布式训练框架,了解 PyTorch、DeepSpeed、Megatron-LM 等在大规模集群中的训练特性,同时熟悉公有云上的云原生 GPU 训练平台(如 AWS、Azure、GCP、阿里云、火山引擎等)的调度、资源管理与训练流程; 3. 能够监控大规模 GPU 资源的使用情况,建立使用基线与性能指标体系,持续分析利用率、稳定性与异常模式,为资源规划、调度优化和容量管理提供依据; 4. 参与算力平台及相关服务的整体架构设计与生命周期管理,从规划、评审到部署上线,推动生产集群向更高稳定性与可持续性演进。

- 信贷风控模型构建与优化:运用大模型技术,设计并搭建信贷风险评估模型,准确预测信贷违约风险。基于海量信贷数据,持续优化模型参数,提升模型的准确性和稳定性,确保模型能够适应不断变化的信贷市场环境。 - 风险策略制定与实施:结合信贷业务流程和风险偏好,制定全面的风险控制策略。利用大模型分析客户行为数据、信用数据等,实现差异化的风险定价和额度管理,有效降低信贷风险。监督风险策略的执行情况,及时调整策略以应对新出现的风险挑战。 - 数据挖掘与分析:从海量的信贷数据中挖掘有价值的信息,通过大模型技术发现潜在的风险因素和风险模式。运用数据分析工具和方法,对信贷数据进行深度分析,为风险决策提供数据支持和决策依据。 - 跨部门协作与沟通:与信贷业务部门、数据部门、信息技术部门等密切合作,确保大模型风控技术与信贷业务流程的紧密结合。为业务部门提供风险评估和风险控制方面的技术支持和培训,提升业务人员的风险意识和风险管控能力。 - 行业动态跟踪与研究:关注国内外信贷风控领域的最新技术和发展趋势,尤其是大模型技术在信贷风控中的应用。研究行业最佳实践,结合公司实际情况,提出创新性的风险控制解决方案,推动公司信贷风控水平的提升。