小米高级机器学习平台研发工程师 - 商业化
任职要求
1. 计算机相关专业,本科及以上学历, 5年以上生产项目开发经验; 2. 扎实的算法和数据结构功底,精通java,scala中至少一门编程语言; 3. 熟悉spark、flink等大数据相关技术,深入了解Te…
工作职责
1. 负责一站式机器学习平台的架构升级,支撑百亿级广告收入规模下的商业化算法模型高效迭代 2. 负责深度学习工作流各环节的深度优化,包括特征和样本生产提效,模型训练加速等 3. 与商业化算法团队密切合作,支撑广告算法前沿技术探索和落地
团队介绍: 我们是一支全球化、多元化、专业化的数据先锋团队,以技术为引擎,以数据为纽带,驱动全球20亿消费者与数千万商家的数字化商业生态。立足中国,服务全球,每天处理覆盖东南亚、欧洲、美洲等多时区的跨境数据洪流,在多语言、多文化、多法规的复杂场景中,打造“数据&AI技术驱动业务”的全球化数据中台。 数据在国际化场景真正成为业务发展的引擎,数据团队成员有数据工程师、研发工程师、数据科学家和算法同学。 团队致力于构建全新的满足安全合规的国际化大数据架构体系;统一的用户/商品/商家资产体系建设,含统一的DMP和选品平台;面向海外商家数据服务的生意参谋及数据银行支撑业务全链路数据驱动闭环,打造从站外竞对机会发现到商品供给和用户增长的数据智能服务Agent平台; 我们秉承简单开放、创新能力、匠心精神的团队文化; 岗位职责: 1) 运用离线批处理与实时流数据技术,建设国际数据体系,包括数据处理、数据采集、数据质量及稳定性保障、数据治理、智能化和自动化建设,搜推广,外投,交易等数据经验; 2) 同数据产品与技术研发协作,为业务方,提供数据洞察和产品化解决方案,与AIDC业务一同成长; 3) 结合业务场景与运营痛点,通过数据+算法+工程化能力,不断完善AIDC的数据化运营能力;
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、负责大模型平台的架构设计和核心功能研发,构建云原生架构,设计高可用、高性能的微服务体系; 2、负责构建面向大模型全流程的DevOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地; 3、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、GPU虚拟化、存储&网络加速等手段,提升GPU集群使用效率; 4、将平台和框架结合,通过任务调度、弹性容灾、性能优化等措施端到端提升AI生产效率,涉及k8s/kubeflow、网络通信、分布式训练等; 5、优化各AI平台性能,提升系统稳定性和可扩展性,保障大规模并发场景下的服务质量与用户体验; 6、持续研究分析业内创新AI平台产品,优化技术方案,改进产品功能,提升创新能力与产品体验。
1. 参与建设搜推机器学习平台,根据业务需求开发相应功能,支持算法的业务迭代,提升算法迭代效率 2. 对算法开发过程进行抽象,将常用的深度学习过程沉淀为组件,建设算法开发pipeline,设计代码与可视化组件相结合的编程范式,提供便捷稳固的一站式环境托管 3. 面向核心本地商业全搜推业务,建设海量数据规模的特征/样本工程,包括离线特征/样本生产、流式训练数据链路建设(ODL)、特征样本监控分析等大数据工程
1.深入理解本地生活到店业务在业务保障领域的场景诉求,有机融合业务和技术,从运行稳定性、功能健壮性、性能容量等方面,基于公司的基础设施与中间件设计,探索并落地稳定性保障相关工作(容灾、容错、容量、应急快反),实现、优化业务保障相关产品和解决方案; 2.进行运维领域相关领域的探索,借助智能化的技术提升业务保障领域相关的能力和效率; 3.主导或参与业务保障相关技术平台的产品化、平台化建设,让技术具备更好的通用性和规模化复制能力; 4.通过技术影响力和团队协作能力横向推动本地生活到店业务的业务线、平台团队落地稳定性架构升级,并反向推动公司基础设施升级。