理想汽车AI基础设施研发专家
任职要求
1.在一流IT或智能汽车企业中,具备5年以上AI算法或核心软件等数个关键技术领域的研发经验,3年以上团队管理或架构师经验。 2.关注并探索前沿技术趋势: 能够判断并定义深度学习算法基础设施领域的技术演进趋势,具备前瞻性技术眼光;擅长做技术突破,具有一定高度的技术前瞻视野,能够挖掘技术增值点。 3.深度学习基础设施架构设计能力: 在深度学习、计算机视觉、自然语言处理等领域拥有丰富的理论和实践经验,能够设计和开发高…
工作职责
1.关注深度学习算法基础设施技术的前瞻趋势; 2.参与下一代深度学习算法基础设施技术的定义,并主导关键技术的探索性研究; 3.配合承接公司在深度学习算法基础设施技术领域的战略规划,横向拉通各技术部门,推动协同规划,推动预研项目的立项以及目标达成。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架,优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline; 2、研发支持多机多卡 RL 的分布式训练框架,开发TP/PP/ZeRO-3与RL流程的动态协同机制,解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链,主导框架与 MLOps 平台集成,提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作,参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代; 5、参与分析各业务 GPU 利用率与饱和度等指标,结合业务场景持续优化训练框架能力,提升框架领先性。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 工作职责: 1、参与/负责研发面向大语言模型(LLM)/多模态大模型(MLLM)等类型模型的推理服务框架; 2、参与/负责KV Router、PD分离/EPD分离、KVCache管理、动态PD调整等分布式推理能力建设; 3、通过并行计算优化、分布式架构优化、异构调度等多种框架技术,打造高效、易用、领先的AI推理框架; 4、参与/负责构建推理框架的系统容错能力,包括但不限于请求迁移、优雅退出、故障检测、自愈等能力建设; 5、深度参与周边深度学习系统多个子方向的工作,包括但不限于模型管理、推理部署、日志/监控、工作流编排等; 6、与全公司各业务算法部门深度合作,为重点项目进行算法与系统的联合优化,支撑业务目标达成。
团队介绍:基础架构数据库 CDI(Common Data Infra)团队支撑字节核心业务板块的数据基础设施建设,深度参与业务存储/数据架构的演进工作。团队负责面向 Base 领域的分布式数据库 FxDB 和向量数据库等产品的研发和迭代,深耕前沿数据库技术,助力业务提升核心技术品质。 1、负责向量索引构建、向量检索等核心算法的实现和性能优化; 2、负责高性能向量数据库的架构设计、功能迭代、以及产品化; 3、针对泛 AI 产品业务场景下的特定需求,提出解决方案并落地。
阿里云专有云平台监控团队研发,负责云平台和租户实例的一体化可观测产品建设。 负责平台核心功能编码开发,工作领域范围: 1、云监控产品能力建设,为用户提供数据采集,预处理,汇聚,过滤,告警匹配,抑制,事件聚合等指标监控和告警。以及站点监控,拨测,巡检,故障诊断等可观测服务能力。 2、云监控平台基础设施服务研发工作,如存储引擎,云原生Prometheus,Grafana平台体系,高可用部署架构,大规模弹性伸缩架构设计等。 3、云平台资源管理,服务器和软件自动化运维平台建设。持续推进AI 技术深化战略布局中, 围绕AI 和云计算的基础设施建设、AI基础模型平台、企业级AI应用方向构建核心运维应用场景。