快手【快Star-X】多模态推理引擎工程师
校招全职J1001地点:上海 | 北京状态:招聘
任职要求
1、有较强的学习能力和编程能力及数学基础 2、有开源大模型推理框架(vllm/slang/trt-llm)使用和优化经验者…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
参与快手大模型推理引擎研发,工作内容包括: 1、参与大模型推理引擎的设计和研发,支撑快手自研以及开源模型的快速部署和高性能推理 2、通过各种技术手段持续优化性能,降低推理成本,包括但不限于:算子/编译优化、异构推理、模型量化&蒸馏、分布式并行等 3、支持RL中的多样化采样、generation性能优化等
包括英文材料
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
还有更多 •••
相关职位
校招J1020
1、参与多模态模型、视频生成模型等大模型的分离式推理编排、异构算力匹配、全球化计算调度; 2、参与大规模异构算力集群的算力资源池化、弹性资源混部、潮汐资源调度; 3、基于HBO、强化学习等优化算法,持续优化工业级多模态视频生成、多模态内容理解系统的耗时体验与算力消耗。
更新于 2025-06-27北京
校招J1020
1、参与多模态模型、视频生成模型等大模型的全链路数据生产流水线搭建; 2、参与多模态数据处理所需的LLM/VLM模型推理、跨模态检索、跨模态对齐等工程系统的建设; 3、基于各类分布式数据处理以及推理优化技术,持续优化超大规模多模态数据处理的推理、存储以及检索效率。
更新于 2025-06-27北京
校招J1020
1、基础设施与模型融合研究 :紧密关注新一代基础设施的迭代,如高性能的新一代网卡、超节点服务器以及先进的集群拓扑结构等,结合多模态任务下多模型(涵盖 visual tokenizer、diffusion、LLM 等)长 pipeline 特点,探索更先进、高效的多模态模型架构以及训推解决方案; 2、分布式系统优化 :运用分布式系统迭代、系统算法 codesign 等手段,针对模型规模、集群规模、context length 持续 scaling up 过程中出现的诸多挑战展开深入研究。具体包括但不限于解决训练过程中的 MFU 与稳定性问题,优化推理环节的时延与吞吐,以及应对超长序列带来的训推显存压力等难题; 3、卓越系统打造 :通过持续的创新与优化实践,致力于打造业界卓越的分布式训推系统,推动相关技术在实际应用场景中的高效落地,提升整体系统性能与竞争力,为 kling 等核心模型发展提供坚实支撑。
更新于 2025-06-26上海|北京