小红书机器学习平台研发工程师 — Java后台开发
任职要求
【任职资格】 1. 熟悉Linux开发环境,具备良好扎实的算法数据结构基础、良好的编程风格和系统设计能力。 2. 优秀的编码能力,熟练掌握Java和其他至少一门语言(如golang、python等)。 3. 熟悉至少一种主流的机器学习框架(TensorFlow / PyTorch )。 4. 有强烈的工作责任心,较好的学习能力、沟通能力。 5. 具备较强的自我驱动力与抗压能力,并乐于不断尝试、追求业务突破。 【加分项】 1. 有机器学习平台相关的研发经验。 2. 对MLOps和AI全流程有较深理解和认识。
工作职责
1. 负责公司机器学习平台相关子系统的设计、开发和优化工作,打造易用、稳定、高效的机器学习平台。 2. 负责机器学习全流程的系统优化和迭代,包括:特征工程、工作流编排、资源调度、任务调度、模型管理、推理服务管理等。 3. 设计、开发超大规模机器学习系统,优化现有技术方案,改善系统性能, 提高算法的整体迭代效率。
1.建设特征/样本工程,设计包括从特征打印到特征服务的完整实时+离线特征/样本生产流程,设计大规模分布式特征存储系统,支撑百亿级数据实时处理,提升特征/样本的生产效率、质量和访问性能,进而提升算法迭代效率和效果; 2.对算法开发过程进行抽象,将常用的机器学习、深度学习过程沉淀为组件,建设算法开发pipeline,设计代码与可视化组件相结合的编程范式,提供便捷稳固的一站式环境托管,提升算法迭代效率; 3.建设训练任务的托管能力,设计异构、多地域、多系统资源池、多租户分组的实验编排调度系统,建立模型实验效果评估体系,支撑几十个业务线、千级模型同时进行训练,保障模型及时产出,提升资源利用率,帮助业务优化模型效果; 4.探索云原生下的模型服务部署架构,设计高可用、多角色的模型服务框架,制定流量分发、模型/服务治理策略,支撑万亿级推理调用量,提升模型部署成功率、推理请求成功率和性能;
阿里巴巴智能信息事业群,聚焦AI在信息服务赛道的创新应用,从工具到服务,持续为用户提供高效、智能的AI应用。智能信息事业群核心产品为夸克、通义、UC浏览器、书旗小说、超级汇川等,以多产品矩阵,覆盖横跨各年龄段的7亿+用户人群,服务超10万+客户。 负责智能信息基础技术平台系统相关研发,包括不限于以下方向: 1、构建高效可靠的云原生容器平台、提出资源优化模型以提升业务资源效率、参与机器学习工程平台的建设和优化,以及运用技术和标准化方案确保平台服务的稳定性和可维护性。 2、负责开发和优化大模型应用开发框架,创造高效的搜索应用解决方案,并深度参与智能信息系统的基础架构与组件开发,以确保技术的高效集成与实际落地。 3、开发和优化搜索引擎,高并发检索、大数据分布式存储及流批计算等系统,深入搜索业务需求设计实现解决方案,不断提高业务性能、系统稳定性,提升系统效率和成本效益。 4、开发和优化推荐引擎、模型预测和向量检索等基础系统,深入参与信息流推荐业务以实现业务需求,同时基于业务洞察设计新平台或改进现有系统,提升系统效率和成本效益。 5、开发和优化实验平台与系统,紧跟AB测试技术前沿,为业务提供精准的实验设计和分析、优化关键指标,并应用算法提高业务参数寻优的效果和效率。 6、具备数理统计基础,在数据科学、数据分析方向有经验者优先。

1. 负责一站式机器学习平台的设计研发与迭代改进,包含前端,后台,平台任务流程设计和研发,为算法同学提供一站式模型训练和上线服务的能力; 3. 协同训练框架、推理框架等团队确保一站式服务平台的稳定性和易用性; 4. 服务算法模型团队,提供样本管理、模型开发调试、模型训练任务管理和版本管理、一键式上线服务部署等功能的平台化能力; 5. 对接容器算力团队,屏蔽算法团队对底层算力资源的感知,提供模型训练和模型服务的资源和任务调度能力; 6. 负责模型平台的任务、资源、成本等数据收集和自动化分析、展示功能开发,推动公司机器学习成本优化工作。