字节跳动AML 机器学习训练框架研发工程师-搜广推
任职要求
1、熟练掌握Linux环境下的C/C++与Python语言; 2、接触过至少一种机器学习框架(Tensorflow / PyTorch / MxNet 或其他自研框架); 3、有以下至少一项的背景知识与经验:GPU编程,编译器,高性能网络,分布式存储,集群调度; 4、具有独立解决问题的能力,良好的团队合作精神; 5、有强烈的工作责任心,较好的学习能力、沟通能力和自驱力; 6、有良好的工作文档习惯,及时按要求撰写更新工作流程及技术文档。 加分项 …
工作职责
AML是公司的机器学习中台,为推荐/广告/搜索等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 1、负责字节跳动 AML 机器学习训练框架的研究与开发,服务于全公司各个产品; 2、参与机器学习训练框架底层组件的抽象,设计,优化与落地; 3、与全公司算法部门深度合作,为重点项目进行算法与系统的联合优化。
AML是公司的机器学习中台,为推荐/广告/搜索等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 1、负责字节跳动 AML 机器学习训练框架的研究与开发,服务于全公司各个产品; 2、参与机器学习训练框架底层组件的抽象,设计,优化与落地; 3、与全公司算法部门深度合作,为重点项目进行算法与系统的联合优化。
AML是公司的机器学习中台,为推荐/广告/搜索等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 1、负责字节跳动 AML 机器学习训练框架的研究与开发,服务于全公司各个产品; 2、参与机器学习训练框架底层组件的抽象,设计,优化与落地; 3、与全公司算法部门深度合作,为重点项目进行算法与系统的联合优化。
1、负责字节跳动AML机器学习训练框架的研究与开发,服务于全公司各个产品; 2、参与机器学习训练框架底层组件的抽象,设计,优化与落地; 3、与全公司算法部门深度合作,为重点项目进行算法与系统的联合优化。
1、负责火山引擎大模型训练和推理系统的研发与性能优化,包括但不限于:模型计算性能优化、千卡训练集群调优、分布式大模型推理系统、大规模推理流量调度等; 2、负责解决系统高并发、高可靠性、高可扩展性等技术难关,支撑火山引擎千亿级别的日均Token训练推理流量; 3、负责大模型训练和推理前瞻性技术架构的调研和引入,技术方案不限于子图匹配、编译优化、模型量化等; 4、负责异构硬件的引入与训练推理框架的集成,包括但不限于GPU、NPU、TPU 等; 5、面向全球多地域超大规模GPU算力集群,通过弹性调度、GPU超卖、任务编排等方式不断提升算力利用率; 6、与算法部门深度合作,进行算法与系统的联合优化。