字节跳动火山引擎-大模型方舟平台研发工程师/架构师
任职要求
1、熟悉Linux平台下的分布式系统的开发及运维,有Golang/Python/C/C++/Java/Scala的开发经验,ACM/ICPC/Codeforces等获奖者优先; 2、能够从产品思维、机器性能和稳定性、团队协作等多种视角,高标准要求自己的技术方案和每一行代码; 3、对如下一个或多个领域有经验,或者无经验但有浓厚的兴趣(须额外付出自己的时间进行深入研究和探索): a. 机器学习应用:做过LLM/CV/NLP/语音/推荐/风控等机器学习领域的数据->训练->推理->应用的落地,或者相关支撑平台的研发; b. 大模型应用:数据集构造(对话、RLHF等)、高效微调(Lora/P-Tuning/RLHF)、推理部署、应用(Prompt工程、检索增强、LangChain等)、新模型探索(LLama/Falcon/miniGPT4); c. 云计算:Kubernetes应用开发(Operator等)、微服务网格和流量治理、云存储、技术商品化探索、Terraform等。
工作职责
1、负责火山引擎-方舟大模型平台的研发,研究大模型在千行百业应用落地的系统化解决方案,大幅降低大模型应用的IT成本,满足用户不断增长的智能交互需求,全面提升用户在未来世界的生活和交流方式; 2、覆盖机器学习系统多个子方向领域的工作,包括:资源调度、模型训练、模型推理、数据管理、工作流编排等。
1、负责火山引擎-方舟大模型平台的研发,研究大模型在千行百业应用落地的系统化解决方案,大幅降低大模型应用的IT成本,满足用户不断增长的智能交互需求,全面提升用户在未来世界的生活和交流方式; 2、覆盖机器学习系统多个子方向领域的工作,包括:资源调度、模型训练、模型推理、数据管理、工作流编排等。
1、负责火山引擎-方舟大模型平台的研发,研究大模型在千行百业应用落地的系统化解决方案,大幅降低大模型应用的IT成本,满足用户不断增长的智能交互需求,全面提升用户在未来世界的生活和交流方式; 2、覆盖机器学习系统多个子方向领域的工作,包括:资源调度、模型训练、模型推理、数据管理、工作流编排等。
AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 1、负责火山引擎机器学习训练和推理框架的研发和性能优化,支撑火山引擎机器学习平台和方舟大模型平台的相关需求和架构迭代; 2、负责解决系统高并发、高可靠性、高可扩展性等技术难关; 3、覆盖机器学习系统多个子方向领域的工作,包括:资源调度、任务编排、模型训练、模型推理、模型管理、数据集管理、工作流编排、ML for System等; 4、负责机器学习系统前瞻技术的调研和引入,比如:最新硬件架构、异构计算系统、GPU 优化技术的引入落地; 5、研究基于机器学习方法,实现对集群/服务资源使用情况的分析和优化。
AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 1、负责火山引擎机器学习训练和推理框架的研发和性能优化,支撑火山引擎机器学习平台和方舟大模型平台的相关需求和架构迭代; 2、负责解决系统高并发、高可靠性、高可扩展性等技术难关; 3、覆盖机器学习系统多个子方向领域的工作,包括:资源调度、任务编排、模型训练、模型推理、模型管理、数据集管理、工作流编排、ML for System等; 4、负责机器学习系统前瞻技术的调研和引入,比如:最新硬件架构、异构计算系统、GPU 优化技术的引入落地; 5、研究基于机器学习方法,实现对集群/服务资源使用情况的分析和优化。