字节跳动数据科学家(多模态大模型&无监督学习算法)-Applied AI Data Scientist (LLM & Unsupervised Learning)-Applied AI
任职要求
1、深入了解计算机科学,以及统计学、机器学习和分析的基本数学知识; 2、至少3年的软件开发或模型/数据开发经验,具有应用LLM技术(如Test Time Scaling、Chain of Thought、Retrieval Augmented Generation、Supervised Fine-Tuning等)解决业务问题的经验; 3、熟练掌握无监督学习和聚类算法,有挖掘数据洞察、模式识别和模型开发的经验; 4、精通Python和SQL,熟悉Tensorflow、Pytorch等ML/DL框架,了解数据Pipeline的构建、模型开发、测试和部署,有CI/CD(如Git)和云服务(如AWS/GCP/Azure)的经验者优先; 5、良好的英文沟通能力,能够清晰地向技术和非技术团队传达分析和技术内容; 6、具备强烈的求知欲,优秀的问题解决和量化分析能力,能够拆解问题、分析根本原因并提出解决方。 1.In-depth knowledge of computer science and the mathematical fundamentals of statistics, machine learning, and analytics; 2.At least 3 years of experience in software development or model/data development, with hands-on experience in applying LLM technologies (such as Test Time Scaling, Chain of Thought, Retrieval Augmented Generation, Supervised Fine-Tuning) to solve business problems; 3.Strong experience with unsupervised learning, clustering algorithms, and extracting data insights, recognizing patterns, and developing models; 4.Proficiency in Python and SQL, with experience in ML/DL frameworks like TensorFlow, PyTorch, solid understanding of building data pipelines, model development, testing, and deployment, experience with CI/CD (such as git) and cloud services (such as AWS/GCP/Azure) is a plus; 5.Strong English communication skills, with the ability to clearly explain technical and analytical content to both technical and non-technical teams; 6.A strong intellectual curiosity, excellent problem-solving and quantitative analysis skills, with the ability to deconstruct issues, identify root causes, and propose solutions.
工作职责
1、基于最新的大模型、深度学习、机器学习、统计学和优化技术,开发创新算法并为业务问题构建原型; 2、通过无监督学习、聚类算法等技术,从海量数据中发现潜在的模式和趋势,提出数据驱动的业务解决方案; 3、与产品经理和跨职能团队合作,定义用户故事和成功指标,管理数据项目从0到1的全过程; 4、使用AB测试等方法验证项目的商业价值和预期收益,并持续优化模型性能; 5、与工程团队合作部署数据模型,并将解决方案规模化。 1.Develop innovative algorithms and build prototypes for business problems using the latest deep learning, machine learning, statistical, and optimization techniques; 2.Use unsupervised learning and clustering algorithms to discover potential patterns and trends from large datasets and propose data-driven business solutions; 3.Collaborate with product managers and cross-functional teams to define user stories and success metrics, managing data projects from 0 to 1; 4.Use methods like AB testing to validate the business value and expected revenue of projects and continuously optimize model performance; 5.Work with engineering teams to deploy data models and scale solutions.
研究方向一:垂域LLM研究与构建 1.基座模型架构设计与优化:参与大语言模型基座架构的设计,研究前沿技术,如稀疏激活、混合精度训练等,同时优化模型的训练和推理流程。 2.技术创新与突破:参与前沿技术研究,如多任务学习、跨模态理解等,推动模型在复杂任务上的性能提升;探索Transformer替代架构,突破现有模型scaling law限制;同时挑战学术benchmark,为模型的性能树立新的行业标杆。 3.强化学习算法研究:参与大语言模型后训练阶段的强化学习算法研究,包括基于AI和环境反馈的强化学习(RLXF)算法。同时探索奖励模型与反馈机制,研究可泛化的细粒度过程监督和奖励建模,探索基于细粒度反馈的强化学习算法。 4.垂域模型定制化构建:领域认知智能突破,探索小样本场景自演进架构设计、可信推理机制构建等方向,同时建立面向AGI的模型评价体系新范式。 5.跨部门协作与落地:与公司数据科学家、算法工程师、产品团队紧密合作,将研究成果快速转化为实际应用,推动大语言模型在更多场景的落地。 研究方向二:垂域MLLM研究与构建 1.研究多模态表征与大语言模型融合的前沿技术,设计和实现创新算法,研究异质数据的统一编解码模型,适配多种模态下的特征统一,实现高效微调与优化。 2.探索强化学习(RL)在多模态大模型中的应用,包括强化学习增强的多模态生成、跨模态对齐、偏好建模及自适应优化,提升多模态理解与推理能力。 3.持续追踪多模态与强化学习结合的最新研究进展,优化现有多模态系统架构,提升性能、效率与可扩展性,推动多模态强化学习在智能体交互、决策推理等任务中的应用。 4.构建技术评估体系,通过多场景验证推动多模态理解、生成及强化学习优化策略的落地应用,提升多模态大模型的泛化能力和实际应用价值。 研究方向三:基于角色扮演的虚拟数字助理 1. 角色扮演技术(Role-Playing):通过模型优化、Agent构建,在人设、拟人性、情感等取得显著提升。 2. 记忆管理与增强(Memory):通过模型长上下文,记忆抽取与管理,提升系统的记忆能力。 3. 个性化技术:通过用户行为数据挖掘与建模,结合多轮对话上下文理解,分析用户情感状态,提升模型的个性化回复能力。 4. 基于Agent的数字助理:通过Agent构建和基于RL的优化,实现数字助理的能力复刻和增强
特斯拉数据算法团队在工业智能研发中扮演关键角色。我们通过自主构建数据算法平台,赋能生产制造、供应链、销售、服务和充电网络等业务领域,将海量信息转化为高价值数据资产,从而打造更卓越的产品并提升用户体验。 作为特斯拉数据算法工程师,您将全程参与自研数据算法产品和项目的孵化、落地与迭代过程。从数据收集、清洗和预处理,到模型训练与生产部署,您将主导整个流程。理想候选人应热爱人工智能,并紧跟领域前沿动态。 本职位聚焦工业领域的计算机视觉应用,包括缺陷检测、视觉引导、尺寸测量以及视觉大模型等。 职责描述 负责对接公司内部计算机视觉项目,独立设计视觉方案、部署落地,并管理项目全生命周期。 处理计算机视觉项目的图像收集、整理、过滤和清洗;执行数据预处理、模型训练、迭代、重训练,以及准确率优化和模型搜索等任务,涵盖分类、识别和图像分割等领域。 探索多模态大模型在工业场景的应用,研究少样本检测、视频理解等方向的创新解决方案。 追踪计算机视觉技术前沿趋势,提出创新方案应对工业生产挑战。 必备条件 计算机科学、数学、统计学或相关学科的本科及以上学历。 扎实的Python和C++开发经验。 精通OpenCV等图像处理算法。 具备TensorFlow或PyTorch模型开发经验。 掌握数据科学工具,如Pandas、NumPy、Matplotlib,以及MongoDB Aggregation等。 有多模态大模型相关项目经验,并在至少一个领域(如多模态大模型、多模态表征或少样本学习)有深入研究。 优先条件 有将计算机视觉技术应用于工业制造或相关领域的实际项目经验。 熟悉机器人/PLC控制、工业相机/激光传感器/光源解决方案。 有在敏捷开发环境中的工作经验。 具备优秀的书面和口头沟通能力。 有项目管理经验,能按时节点完成开发任务。 拥有算法开发背景,例如参与过ACM竞赛。 在相关领域的学术期刊或会议上发表过论文。 加入我们 加入特斯拉,您将在充满活力和创新的环境中,与全球顶尖工程师和科学家合作,通过机器视觉技术推动工业自动化和智能制造的进步。如果您对机器学习、人工智能和计算机视觉充满热情,并渴望在这一前沿领域实现自我价值,欢迎成为我们的一员! The Role Tesla's Data Algorithms Team plays a pivotal role in industrial intelligence research and development. We empower various business areas—including manufacturing, supply chain, sales, service, and charging networks—by building our own data algorithms platform. This transforms vast amounts of information into high-value data assets, enabling us to create superior products and deliver an enhanced user experience. As a Tesla Data Algorithms Engineer, you will be fully involved in the incubation, implementation, and iteration of our in-house data algorithms products and projects. From data collection, cleaning, and preprocessing to model training and production deployment, you will lead the entire process. The ideal candidate is passionate about artificial intelligence and stays abreast of the latest developments in the field. This position focuses on computer vision applications in the industrial sector, including defect detection, visual guidance, dimension measurement, and large vision models. Responsibilities Handle internal computer vision projects, independently design visual solutions, deploy them, and manage the full project lifecycle. Manage image collection, organization, filtering, and cleaning for computer vision projects; perform data preprocessing, model training, iteration, retraining, accuracy optimization, and model search tasks, covering areas such as classification, recognition, and image segmentation. Explore the application of multimodal large models in industrial scenarios, researching innovative solutions in directions like few-shot detection and video understanding. Track cutting-edge trends in computer vision technology and propose innovative solutions to address challenges in industrial production. Required
特斯拉数据算法团队在工业智能研发中扮演关键角色。我们通过自主构建数据算法平台,赋能生产制造、供应链、销售、服务和充电网络等业务领域,将海量信息转化为高价值数据资产,从而打造更卓越的产品并提升用户体验。 作为特斯拉数据算法工程师,您将全程参与自研数据算法产品和项目的孵化、落地与迭代过程。从数据收集、清洗和预处理,到模型训练与生产部署,您将主导整个流程。理想候选人应热爱人工智能,并紧跟领域前沿动态。 本职位聚焦工业领域的计算机视觉应用,包括缺陷检测、视觉引导、尺寸测量以及视觉大模型等。 职责描述 负责对接公司内部计算机视觉项目,独立设计视觉方案、部署落地,并管理项目全生命周期。 处理计算机视觉项目的图像收集、整理、过滤和清洗;执行数据预处理、模型训练、迭代、重训练,以及准确率优化和模型搜索等任务,涵盖分类、识别和图像分割等领域。 探索多模态大模型在工业场景的应用,研究少样本检测、视频理解等方向的创新解决方案。 追踪计算机视觉技术前沿趋势,提出创新方案应对工业生产挑战。 必备条件 计算机科学、数学、统计学或相关学科的本科及以上学历。 扎实的Python和C++开发经验。 精通OpenCV等图像处理算法。 具备TensorFlow或PyTorch模型开发经验。 掌握数据科学工具,如Pandas、NumPy、Matplotlib,以及MongoDB Aggregation等。 有多模态大模型相关项目经验,并在至少一个领域(如多模态大模型、多模态表征或少样本学习)有深入研究。 优先条件 有将计算机视觉技术应用于工业制造或相关领域的实际项目经验。 熟悉机器人/PLC控制、工业相机/激光传感器/光源解决方案。 有在敏捷开发环境中的工作经验。 具备优秀的书面和口头沟通能力。 有项目管理经验,能按时节点完成开发任务。 拥有算法开发背景,例如参与过ACM竞赛。 在相关领域的学术期刊或会议上发表过论文。 加入我们 加入特斯拉,您将在充满活力和创新的环境中,与全球顶尖工程师和科学家合作,通过机器视觉技术推动工业自动化和智能制造的进步。如果您对机器学习、人工智能和计算机视觉充满热情,并渴望在这一前沿领域实现自我价值,欢迎成为我们的一员! The Role Tesla's Data Algorithms Team plays a pivotal role in industrial intelligence research and development. We empower various business areas—including manufacturing, supply chain, sales, service, and charging networks—by building our own data algorithms platform. This transforms vast amounts of information into high-value data assets, enabling us to create superior products and deliver an enhanced user experience. As a Tesla Data Algorithms Engineer, you will be fully involved in the incubation, implementation, and iteration of our in-house data algorithms products and projects. From data collection, cleaning, and preprocessing to model training and production deployment, you will lead the entire process. The ideal candidate is passionate about artificial intelligence and stays abreast of the latest developments in the field. This position focuses on computer vision applications in the industrial sector, including defect detection, visual guidance, dimension measurement, and large vision models. Responsibilities Handle internal computer vision projects, independently design visual solutions, deploy them, and manage the full project lifecycle. Manage image collection, organization, filtering, and cleaning for computer vision projects; perform data preprocessing, model training, iteration, retraining, accuracy optimization, and model search tasks, covering areas such as classification, recognition, and image segmentation. Explore the application of multimodal large models in industrial scenarios, researching innovative solutions in directions like few-shot detection and video understanding. Track cutting-edge trends in computer vision technology and propose innovative solutions to address challenges in industrial production. Required