特斯拉Data Algorithm Engineer, LLM Fine-Tuning
任职要求
1. 学历背景: 计算机科学、人工智能、数学或相关领域的本科及以上学历。 2. 核心经验: o 具备至少2年以上的AI模型训练相关经验,拥有完整的大模型(如LLaMA, Qwen等)微调项目落地经验者优先。 o 具备LLM应用开发经验,并有RAG、Agent Multi-agent等应用的实际落地经验。 3. 技术栈掌握: o 精通 Python,并熟练掌握至少一种主流深度学习框架(PyTorch为佳)。 o 熟悉 Hugging Face 生态,对 Transformers, PEFT, Accelerate等库有深入的实践经验。 o 熟悉模型训练的各个环节,包括数据构建、分布式训练技术、模型量化与推理优化。 4. 硬件与环境: 具备在多GPU环境下进行模型训练的经验,熟悉NVIDIA GPU、CUDA和NCCL等相关技术。 5. 软实力: o 优秀的分析和解决问题的能力,能够独立打通从模型训练到应用落地的全流程。 o 对技术充满热情,具备良好的学习能力和团队协作精神。 o 能够将复杂的业务需求转化为清晰的技术实现路径。 加分项: · 有从零开始预训练(Pre-training)模型的经验。 · 有模型部署和推理服务优化(如vLLM, Triton Inference Server)的经验。 · 在顶级AI会议或期刊上发表过相关论文,或有活跃的开源社区贡献。
工作职责
随着AI技术在公司核心业务中的深度应用,我们发现通用的提示词工程已难以满足我们对高精度、高效率的业务指标要求。与此同时,业界小尺寸基础模型的成熟为我们通过微调(Fine-tuning)打造专属、高效的AI模型提供了绝佳契机。 为抓住这一机遇,我们正在寻找一位在AI模型训练与应用开发领域均拥有丰富实战经验的复合型工程师。您不仅需要主导模型微调的技术路线与实践,利用即将到位的本地化尖端硬件资源,打造高性能的定制化模型;更需要具备将强大模型能力转化为创新应用的能力,打通从模型到产品的全链路,直接驱动业务价值的提升。 岗位职责: 1. 模型微调与训练: 负责大语言模型(LLM)或多模态模型的微调工作,包括但不限于指令微调(SFT)、基于人类反馈的强化学习(RLHF)、LoRA/QLoRA等高效微调技术的实践与优化。 2. 技术方案设计: 针对具体的业务场景,设计并实施从数据准备、模型选型、训练策略到效果评估的全流程微调方案。 3. 训练平台搭建与优化: 负责在新的本地化硬件集群(多GPU服务器)上搭建、配置和优化模型训练环境,确保训练任务的高效、稳定运行。 4. LLM应用开发与集成: o 参与或主导基于大模型的应用开发,包括但不限于构建检索增强生成(RAG)系统、开发智能体(Agent)应用。 o 将微调后的模型封装为高效稳定的API服务,并与现有业务系统进行集成。(加分项) 5. 性能评估与迭代: 建立科学的模型与应用评估体系,持续跟踪模型在精确度、响应速度、业务效果等方面的表现,并进行快速迭代优化。 6. 技术探索与创新: 紧跟AI模型训练与应用领域的前沿技术动态,研究和引入最新的框架、算法和工具,持续提升团队的技术实力。
Why Join Us We're seeking an AI Algorithm Engineer who will lead the design and implementation of cutting-edge conversational systems for TCL products such as TV, mobile phones, smart glasses and home robots. This position is ideal for someone who is motivated to innovate, tackle challenging problems, and collaborate effectively in cross-functional teams. Key Responsibilities Lead the algorithm design and data flow architecture for specific scenarios. Adapt LLMs to specific application scenarios via continued pre-training or fine-tuning. Evaluate and monitor model performance using both quantitative and qualitative metrics; recommend the best models for specific tasks. Stay current with AIGC trends and apply cutting-edge technologies and methods to work. Solve complex problems, share knowledge, and collaborate across departments.
Team Introduction: TikTok Content Security Algorithm Research Team The International Content Safety Algorithm Research Team is dedicated to maintaining a safe and trustworthy environment for users of ByteDance's international products. We develop and iterate on machine learning models and information systems to identify risks earlier, respond to incidents faster, and monitor potential threats more effectively. The team also leads the development of foundational large models for products. In the R&D process, we tackle key challenges such as data compliance, model reasoning capability, and multilingual performance optimization. Our goal is to build secure, compliant, and high-performance models that empower various business scenarios across the platform, including content moderation, search, and recommendation. Research Project Background: In recent years, Large Language Models (LLMs) have achieved remarkable progress across various domains of natural language processing (NLP) and artificial intelligence. These models have demonstrated impressive capabilities in tasks such as language generation, question answering, and text translation. However, reasoning remains a key area for further improvement. Current approaches to enhancing reasoning abilities often rely on large amounts of Supervised Fine-Tuning (SFT) data. However, acquiring such high-quality SFT data is expensive and poses a significant barrier to scalable model development and deployment. To address this, OpenAI's o1 series of models have made progress by increasing the length of the Chain-of-Thought (CoT) reasoning process. While this technique has proven effective, how to efficiently scale this approach in practical testing remains an open question. Recent research has explored alternative methods such as Process-based Reward Model (PRM), Reinforcement Learning (RL), and Monte Carlo Tree Search (MCTS) to improve reasoning. However, these approaches still fall short of the general reasoning performance achieved by OpenAI's o1 series of models. Notably, the recent DeepSeek R1 paper suggests that pure RL methods can enable LLM to autonomously develop reasoning skills without relying on the expensive SFT data, revealing the substantial potential of RL in advancing LLM capabilities. 团队介绍: 国际化内容安全算法研究团队致力于为字节跳动国际化产品的用户维护安全可信赖环境,通过开发、迭代机器学习模型和信息系统以更早、更快发掘风险、监控风险、响应紧急事件,团队同时负责产品基座大模型的研发,我们在研发过程中需要解决数据合规、模型推理能力、多语种性能优化等方面的问题,从而为平台上的内容审核、搜索、推荐等多项业务提供安全合规,性能优越的基座模型。 课题介绍: 课题背景: 近年来,大规模语言模型(Large Language Models, LLM)在自然语言处理和人工智能的各个领域都取得了显著的进展。这些模型展示了强大的能力,例如在生成语言、回答问题、翻译文本等任务上表现优异。然而,LLM 的推理能力仍有很大的提升空间。在现有的研究中,通常依赖于大量的监督微调(Supervised Fine-Tuning, SFT)数据来增强模型的推理性能。然而,高质量 SFT 数据的获取成本高昂,这对模型的开发和应用带来了极大的限制。 为了提升推理能力,OpenAI 的 o1 系列模型通过增加思维链(Chain-of-Thought, CoT)的推理过程长度取得了一定的成功。这种方法虽然有效,但在实际测试时如何高效地进行扩展仍是一个开放的问题。一些研究尝试使用基于过程的奖励模型(Process-based Reward Model, PRM)、强化学习(Reinforcement Learning, RL)以及蒙特卡洛树搜索算法(Monte Carlo Tree Search, MCTS)等方法来解决推理问题,然而这些方法尚未能达到 OpenAI o1 系列模型的通用推理性能水平。最近deepseek r1在论文中提到通过纯强化学习的方法,可以使得 LLM 自主发展推理能力,而无需依赖昂贵的 SFT 数据。这一系列的工作都揭示着强化学习对LLM的巨大潜力。 课题挑战: 1、Reward模型的设计:在强化学习过程中,设计一个合适的reward模型是关键。Reward模型需要准确地反映推理过程的效果,并引导模型逐步提升其推理能力。这不仅要求对不同任务精准设定评估标准,还要确保reward模型能够在训练过程中动态调整,以适应模型性能的变化和提高。 2、稳定的训练过程:在缺乏高质量SFT数据的情况下,如何确保强化学习过程中的稳定训练是一个重大挑战。强化学习过程通常涉及大量的探索和试错,这可能导致训练不稳定甚至模型性能下降。需要开发具有鲁棒性的训练方法,以保证模型在训练过程中的稳定性和效果。 3、如何从数学和代码任务上拓展到自然语言任务上:现有的推理强化方法主要应用在数学和代码这些CoT数据量相对丰富的任务上。然而,自然语言任务的开放性和复杂性更高,如何将成功的RL策略从这些相对简单的任务拓展到自然语言处理任务上,要求对数据处理和RL方法进行深入的研究和创新,以实现跨任务的通用推理能力。 4、推理效率的提升:在保证推理性能的前提下,提升推理效率也是一个重要挑战。推理过程的效率直接影响到模型在实际应用中的可用性和经济性。可以考虑利用知识蒸馏技术,将复杂模型的知识传递给较小的模型,以减少计算资源消耗。另外,使用长思维链(Long Chain-of-Thought, Long-CoT)技术来改进短思维链(Short-CoT)模型,也是一种潜在的方法,以在保证推理质量的同时提升推理速度。