logo of bytedance

字节跳动计算引擎高级研发工程师-训练设施

社招全职A197733A地点:杭州状态:招聘

任职要求


1、本科及以上学历,计算机相关专业优先;
2、精通Python/C++/Go等编程语言;
3、具有Ray内核或者R…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、参与公司内基于Ray的分布式计算场景的方案设计以及研发,包括机器学习、图等场景;
2、参与Ray内核/Kuberay以及相关上层生态框架的功能开发&性能优化;
3、参与Ray在K8s上的弹性/潮汐资源集群稳定性/可观测性/平台化对接等能力建设;
4、参与Ray开源社区的建设。
包括英文材料
学历+
Python+
C+++
Go+
还有更多 •••
相关职位

logo of xiaohongshu
社招3-5年大模型

我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、负责大模型平台的架构设计和核心功能研发,构建云原生架构,设计高可用、高性能的微服务体系; 2、负责构建面向大模型全流程的DevOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地; 3、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、GPU虚拟化、存储&网络加速等手段,提升GPU集群使用效率; 4、将平台和框架结合,通过任务调度、弹性容灾、性能优化等措施端到端提升AI生产效率,涉及k8s/kubeflow、网络通信、分布式训练等; 5、优化各AI平台性能,提升系统稳定性和可扩展性,保障大规模并发场景下的服务质量与用户体验; 6、持续研究分析业内创新AI平台产品,优化技术方案,改进产品功能,提升创新能力与产品体验。

更新于 2025-10-23北京|上海|杭州
logo of alibaba
社招2年以上技术类-开发

我们是阿里巴巴国际数字商业集团的智能技术团队,负责阿里巴巴旗下多个国际化电商平台(如 AliExpress、Lazada、Trendyol 等)的搜索、推荐、广告、用户增长等核心技术。团队致力于将最前沿的 AI 技术——包括大模型、多模态理解、智能体(Agent)系统等——与国际化电商业务深度结合,为全球用户打造更智能、更个性化的购物体验,同时赋能百万商家实现高效、自动化的经营决策。 选择加入我们,意味着你将投身于高速发展的全球化电商业务,参与构建下一代以 AI 为核心的智能商业基础设施。在这里,你不仅会推动传统算法系统的演进,还将主导面向未来的 智能体(Agent)体系 建设,打造具备感知、推理、决策与执行能力的自动化智能系统。你将有机会负责以下核心工作: 支持业务快速迭代:高效推进来自搜索、推荐、广告、用户增长等领域的多样化产品需求落地,支撑多语言、多市场、多场景的业务敏捷创新。 系统架构设计与优化:主导搜索、推荐、广告引擎的高可用、高并发架构设计,支持全球用户低延迟访问,并为智能体(Agent)系统的实时感知与响应能力提供底层支撑。 性能调优与资源效率提升:针对召回排序、模型训练与推理、特征计算等关键链路,进行深度工程优化(如分布式计算加速、内存管理、GPU/TPU 资源调度等),提升算法迭代效率与系统吞吐能力,为大规模 Agent 部署提供高性能基础设施。 工程平台体系建设:构建算法与工程协同的标准化平台,包括实时特征平台、在线推理服务框架、AB 实验平台、策略仿真环境等,支持从传统模型到智能体(Agent)的全生命周期开发与效果验证。 大模型与智能体(Agent)工程落地: 负责生成式 AI 技术的工程化落地,包括大模型训练、推理加速、多模态内容生成等; 主导 电商智能体(E-commerce Agent)系统 的设计与实现,构建具备任务规划、工具调用、多轮交互、自主决策能力的智能体架构; 探索基于大模型的自动化运营、智能客服、个性化导购、商家助手等 Agent 应用场景,推动 AI 从“辅助”走向“自主执行”。 加入我们,你将站在 AI 与全球电商融合的最前沿,用技术重新定义人、货、场的连接方式,共同打造一个由智能体驱动的下一代国际化电商平台。

更新于 2026-01-19杭州
logo of aliyun
社招3年以上云智能集团

1. 负责研发AI异构计算软件栈,通过结合不同加速芯片的特性,实现AI计算的全链路优化,助力打造在业界具有竞争力的高可靠、高性能、高效率的大规模AI算力基础设施。 2. 结合具体业务场景,开展软硬件协同优化和技术创新(包括但不限于算子优化与编译、量化压缩,计算通讯融合,系统调度、分布式推理优化等工程任务),为实际业务提供卓越的性能和成本效益。 3. 洞察人工智能及深度学习的发展趋势,积极参与下一代AI基础设施的设计与研发。

更新于 2025-08-08上海
logo of quark
社招2年以上技术类-前端

1、负责配合大数据、云原生调度、训推引擎、搜推引擎等团队一起打造卓越的AI基础设施中台,助力AI业务高速迭代; 2、负责前端智能研发方向的关键技术的调研及应用,不断提升团队整体的开发效率。

更新于 2025-12-18广州