logo of bytedance

字节跳动大模型机器学习平台研发工程师-TikTok AI创新中心(北京/上海)

社招全职2年以上A241222地点:北京状态:招聘

任职要求


1、计算机及相关专业本科或本科以上学历,良好的沟通和团队协作能力;
2、扎实的编程基础、良好的编程风格,熟悉多线程编程、分布式计算、网络通信、内存管理、设计模式;
3、两年及以上工程研发或者基础架构经验,熟练掌握C/C++PythonGolang等至少一种开发语言;
4、具备分布式系统的研发经验,有优化系统性能问题的能力和经验,具备以下一个或者多个条件者优先:
1)有超大规模模型研发经验,涉及数据、训练、部署、评估等相关工作;
2)具有DevOps、MLOps相关经验;
3)具有大规模模型服务部署、优化经验;
4)熟悉TensorFlowPyTorchPaddlePaddle深度学习框架,了解vLLM/LangChain大模型工程框架;
5)有K8sRayHadoopSparkHDFS等分布式调度、计算和存储项目经验。

工作职责


团队介绍:TikTok是一个覆盖150个国家和地区的国际短视频平台,我们希望通过TikTok发现真实、有趣的瞬间,让生活更美好。TikTok 在全球各地设有办公室,全球总部位于洛杉矶和新加坡,办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。

TikTok AI创新中心,是致力于AI基础设施建设和创新研究的部门,探索行业领先的人工智能技术,包括大语言模型,多模态大模型等研究方向。我们希望研发能够处理多语言和海量视频内容理解的模型算法,为用户带来更好的内容消费体验。在Code AI方向,我们利用大语言模型强大的代码理解与推理能力,提升程序性能与研发效率。

1、参与设计并实现高可用、可扩展、分布式大模型机器学习平台,支撑国际化短视频大模型研发与高效迭代;
2、探索业界前沿的大模型工程研发(LLMOps)相关技术,覆盖数据、训练、推理服务、评测、自动化编排、Prompt工程、资源调度等方向;
3、构建高性能大模型推理服务架构,降低推理成本,保障服务高可用运行。
包括英文材料
学历+
多线程+
设计模式+
C+
C+++
Python+
Go+
分布式系统+
DevOps+
TensorFlow+
PyTorch+
PaddlePaddle+
深度学习+
vLLM+
LangChain+
大模型+
Kubernetes+
Ray+
Hadoop+
Spark+
HDFS+
相关职位

logo of bytedance
社招A48560

团队介绍:TikTok是一个覆盖150个国家和地区的国际短视频平台,我们希望通过TikTok发现真实、有趣的瞬间,让生活更美好。TikTok 在全球各地设有办公室,全球总部位于洛杉矶和新加坡,办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok AI创新中心,是致力于AI基础设施建设和创新研究的部门,探索行业领先的人工智能技术,包括大语言模型,多模态大模型等研究方向。我们希望研发能够处理多语言和海量视频内容理解的模型算法,为用户带来更好的内容消费体验。在Code AI方向,我们利用大语言模型强大的代码理解与推理能力,提升程序性能与研发效率。 1、负责大模型训练和推理的性能优化,保证训推效率达到业界领先水平; 2、与算法同学深度合作,进行算法和训推系统的联合深度优化,支撑部门前沿技术落地; 3、负责大模型训推方向前沿技术调研与落地,持续加强提升部门关键技术竞争力。

更新于 2024-03-25
logo of bytedance
校招A134385

团队介绍:TikTok是一个覆盖150个国家和地区的国际短视频平台,我们希望通过TikTok发现真实、有趣的瞬间,让生活更美好。TikTok 在全球各地设有办公室,全球总部位于洛杉矶和新加坡,办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok AI创新中心,是致力于AI基础设施建设和创新研究的部门,探索行业领先的人工智能技术,致力于突破多模态大模型与代码大模型的技术边界。我们正在构建下一代AI系统,这些系统能够无缝理解与整合多语言文本、海量视频内容及复杂代码结构,打造真正跨模态的统一智能架构。我们的研究不仅关注模型的理解能力,更探索其在复杂推理任务中的应用潜力,将代码作为连接各类智能任务的通用语言。团队旨在通过创新算法设计,为用户提供前所未有的内容体验与创作辅助,同时显著提升开发效率与系统性能。 1、探究大语言模型智能体方法,探讨如何构建性能更优、成本更低、稳定性更强的智能体; 2、探索前沿大语言模型智能体的应用,如多模态视频智能体、SWE(软件工程)智能体等; 3、团队方向包括: 1)探索与大语言模型智能体平台相关的前沿技术,涵盖领域包括强化学习、RAG、推理、规划、Tool、多智能体协作等; 2)负责大模型训练和推理的性能优化,以及前沿技术调研与落地,保证训推效率达到业界领先水平。

更新于 2025-07-29
logo of bytedance
社招I5124

团队介绍:TikTok内容生态算法团队立足于平台海量用户和短视频内容,利用多模态、LLM/MLLM、NLP&CV等技术,负责对各类内容做分析、加工、生成等内容层操作,内容形态包括但不限于短视频、图文、全网热点页面、客服对话等,产出内容理解特征、大模型生成中间页、全网热点发现&理解能力以及智能客服系统。 同时在TikTok供给侧提供面向全平台的创作灵感个性化推荐能力。 在这里,有上百个语种,NLP/LLM等技术面临多语种挑战。 在这里,有海量短视频内容,MLLM及多模态技术有更多应用场景。 平台用户量大,各项业务如本地生活、搜索等都处于高速发展期,有大量实际落地和应用场景。 1、参与TikTok业务中的NLP/CV基础算法相关研发工作,深度理解业务,解决和跟进一线业务问题; 2、与产品运营团队紧密协作,在热点挖掘、本地生活等业务方向持续迭代优化算法效果,达成业务目标; 3、结合业务场景挑战,跟踪前沿领域研究成果,推动技术创新在业务场景的深度应用,包括但不限于热点发现/信息抽取与结构化/多模态/大模型/文本生成/检索与相关性等算法领域。

更新于 2023-01-10
logo of bytedance
校招A238623

Team Introduction: TikTok Content Security Algorithm Research Team The International Content Safety Algorithm Research Team is dedicated to maintaining a safe and trustworthy environment for users of ByteDance's international products. We develop and iterate on machine learning models and information systems to identify risks earlier, respond to incidents faster, and monitor potential threats more effectively. The team also leads the development of foundational large models for products. In the R&D process, we tackle key challenges such as data compliance, model reasoning capability, and multilingual performance optimization. Our goal is to build secure, compliant, and high-performance models that empower various business scenarios across the platform, including content moderation, search, and recommendation. Research Project Background: In recent years, Large Language Models (LLMs) have achieved remarkable progress across various domains of natural language processing (NLP) and artificial intelligence. These models have demonstrated impressive capabilities in tasks such as language generation, question answering, and text translation. However, reasoning remains a key area for further improvement. Current approaches to enhancing reasoning abilities often rely on large amounts of Supervised Fine-Tuning (SFT) data. However, acquiring such high-quality SFT data is expensive and poses a significant barrier to scalable model development and deployment. To address this, OpenAI's o1 series of models have made progress by increasing the length of the Chain-of-Thought (CoT) reasoning process. While this technique has proven effective, how to efficiently scale this approach in practical testing remains an open question. Recent research has explored alternative methods such as Process-based Reward Model (PRM), Reinforcement Learning (RL), and Monte Carlo Tree Search (MCTS) to improve reasoning. However, these approaches still fall short of the general reasoning performance achieved by OpenAI's o1 series of models. Notably, the recent DeepSeek R1 paper suggests that pure RL methods can enable LLM to autonomously develop reasoning skills without relying on the expensive SFT data, revealing the substantial potential of RL in advancing LLM capabilities. 团队介绍: 国际化内容安全算法研究团队致力于为字节跳动国际化产品的用户维护安全可信赖环境,通过开发、迭代机器学习模型和信息系统以更早、更快发掘风险、监控风险、响应紧急事件,团队同时负责产品基座大模型的研发,我们在研发过程中需要解决数据合规、模型推理能力、多语种性能优化等方面的问题,从而为平台上的内容审核、搜索、推荐等多项业务提供安全合规,性能优越的基座模型。 课题介绍: 课题背景: 近年来,大规模语言模型(Large Language Models, LLM)在自然语言处理和人工智能的各个领域都取得了显著的进展。这些模型展示了强大的能力,例如在生成语言、回答问题、翻译文本等任务上表现优异。然而,LLM 的推理能力仍有很大的提升空间。在现有的研究中,通常依赖于大量的监督微调(Supervised Fine-Tuning, SFT)数据来增强模型的推理性能。然而,高质量 SFT 数据的获取成本高昂,这对模型的开发和应用带来了极大的限制。 为了提升推理能力,OpenAI 的 o1 系列模型通过增加思维链(Chain-of-Thought, CoT)的推理过程长度取得了一定的成功。这种方法虽然有效,但在实际测试时如何高效地进行扩展仍是一个开放的问题。一些研究尝试使用基于过程的奖励模型(Process-based Reward Model, PRM)、强化学习(Reinforcement Learning, RL)以及蒙特卡洛树搜索算法(Monte Carlo Tree Search, MCTS)等方法来解决推理问题,然而这些方法尚未能达到 OpenAI o1 系列模型的通用推理性能水平。最近deepseek r1在论文中提到通过纯强化学习的方法,可以使得 LLM 自主发展推理能力,而无需依赖昂贵的 SFT 数据。这一系列的工作都揭示着强化学习对LLM的巨大潜力。 课题挑战: 1、Reward模型的设计:在强化学习过程中,设计一个合适的reward模型是关键。Reward模型需要准确地反映推理过程的效果,并引导模型逐步提升其推理能力。这不仅要求对不同任务精准设定评估标准,还要确保reward模型能够在训练过程中动态调整,以适应模型性能的变化和提高。 2、稳定的训练过程:在缺乏高质量SFT数据的情况下,如何确保强化学习过程中的稳定训练是一个重大挑战。强化学习过程通常涉及大量的探索和试错,这可能导致训练不稳定甚至模型性能下降。需要开发具有鲁棒性的训练方法,以保证模型在训练过程中的稳定性和效果。 3、如何从数学和代码任务上拓展到自然语言任务上:现有的推理强化方法主要应用在数学和代码这些CoT数据量相对丰富的任务上。然而,自然语言任务的开放性和复杂性更高,如何将成功的RL策略从这些相对简单的任务拓展到自然语言处理任务上,要求对数据处理和RL方法进行深入的研究和创新,以实现跨任务的通用推理能力。 4、推理效率的提升:在保证推理性能的前提下,提升推理效率也是一个重要挑战。推理过程的效率直接影响到模型在实际应用中的可用性和经济性。可以考虑利用知识蒸馏技术,将复杂模型的知识传递给较小的模型,以减少计算资源消耗。另外,使用长思维链(Long Chain-of-Thought, Long-CoT)技术来改进短思维链(Short-CoT)模型,也是一种潜在的方法,以在保证推理质量的同时提升推理速度。

更新于 2025-05-26