logo of tencent

腾讯腾讯PCG AI Infra团队-高性能计算工程师(深圳/北京/上海)-高性能计算

社招全职2年以上Venus技术地点:深圳状态:招聘

任职要求


1.计算机相关专业本科及以上学历,2年以上高性能计算相关工作经验;
2.熟练掌握C++/Python等编程语言,有大规模并行计算或分布式系统开发经验;
3.深入理解计算机体系结构、并行计算原理,熟悉Nvidia GPU/NPU加速技术;
4.具备Linux系统下的高性能调优经验,熟悉常见性能分析工具…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.负责大语言模型推理加速引擎一念(https://github.com/Tencent/KsanaLLM)的研发和业务应用,助力业务降本提效;
2.与算法团队、产品团队紧密协作,理解业务需求并提供定制化的高性能计算解决方案;
3.持续跟踪HPC领域的前沿技术,推动新技术在一念的应用与创新;
4.解决高性能计算场景下的复杂技术问题,确保系统的稳定性和可扩展性。
包括英文材料
学历+
C+++
Python+
分布式系统+
还有更多 •••
相关职位

logo of tencent
社招3年以上TEG技术

1.基于开源项目 Ray,打造业内领先的通用分布式计算引擎,包括但不限于以下方向:引擎内核(分布式Task调度与执行)、分布式数据处理框架、分布式在线服务编排框架等; 2.面向 Data + AI,支持和拓展以 Ray 为 infra 的多种业务场景,包括但不限于以下方向:数据科学、大模型训练数据管道服务、在线推理与离线推理、AI Agent与应用系统、隐私计算、图计算等; 3.与 K8S 深度融合,建设云原生环境下超大规模分布式系统的服务能力与平台化能力,为业务提供高可用、可扩展、高易用性的集群化服务; 4.参与开源共建与合作,提升团队与个人在业界的影响力。

更新于 2025-06-09北京
logo of tencent
社招2年以上公共技术

1.负责深度学习训练相关算子的设计、实现与优化( CUDA/CUTLASS/Triton ); 2.面向大模型训练场景,对算子进行端到端性能分析与调优,持续挖掘吞吐、延迟、显存利用率等指标的优化空间; 3.参与或主导 3D 并行(Data / Tensor / Pipeline Parallel 等)训练体系下的算子与通信方案设计与优化; 4.与分布式训练、系统、模型算法团队密切协作,共同提升大规模训练任务的整体效率与稳定性; 5.跟踪业界前沿的硬件架构与系统软件(GPU 架构、网络、编译器、库等),将最新技术转化为实际性能收益。

更新于 2025-12-01深圳
logo of weride
校招其他

PNC组介绍:在自动驾驶系统中,决策规划与控制可以类比为人类的大脑与神经。确保“大脑与神经”正确高效地“思考”和安全舒适地“执行”,是一个优秀的规划与控制组的职责所在。规划控制团队分为决策团队、规划团队和控制团队。决策规划部门的主要目的是在复杂的无人驾驶环境中找到安全的行驶方案,例如通过人类驾驶的数据分析何时进行变道,对前方车辆是跟随还是绕行。决策规划部分还要从路上的真实数据中学习人类驾驶的共识,比如道路拥堵时到底什么时候能变道,后车要怎么表达出它是否让行,进而思考如何把这种共识应用到具体算法中。此外,决策规划要能将不同的未来收敛到当选确定的行为中。控制部分则是负责将上述的行为严格地执行到车辆上。 latency一直是规划与控制团队希望一直提升的一个保证安全的关键性指标。我们希望能够发挥车载硬件的所有性能来达成目标,包括cpu、gpu、各级cache等等。我们团队希望有GPU背景的同事来加入我们面对未来车载硬件算力往gpu迁移这个大趋势的的挑战。你将会和规划与控制的其他工程师一起,开发出下一代高并行度,高性能的规划算法。

更新于 2025-06-19北京|深圳|广州
logo of xpeng
社招

岗位描述: 1、负责自动驾驶中前沿深度学习算法模型的优化和高效推理部署,达到量产车型上嵌入式芯片的性能要求。 2、负责设计、开发新一代高性能的自动驾驶软件功能模块,能够对实车硬件状态和软件表现进行深度分析和调优。 3、负责传统CV、SF、SLAM等算法的在嵌入式平台的移植、CPU/GPU优化。 4、探索下一代嵌入式芯片上,高性能计算、模型量产和优化的无限可能。

更新于 2023-08-30北京|上海|广州