字节跳动数据服务工程师-豆包大模型

社招全职3年以上A1584162024-04-22地点：北京状态：招聘

扫码手机上打开

任职要求

1、3年以上数据服务相关开发经验，熟练掌握Python、Golang等一种以上编程语言，有高并发和异步编程经验的优先；
2、熟悉Hudi，Hive， ClickHouse，Mysql、Mongo、ES等数据湖和数据仓库，了解底层原理…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、负责千亿级别海量数据的管理，包括数据的存储，数据处理，数据安全，数据校验等等；
2、负责数据链路基建的研发，追求极致的处理速度，达到百万QPS的处理能力；
3、大规模数据的分析以及可视化的建设，从数据中挖掘出影响模型训练结果的可能因素，从而帮助模型训练改进；
4、与算法同学深度合作，加速训练数据的获取，提升数据质量，支持模型结果数据评测，打造数据闭环；
5、支持数据分析和数据可视化工作，降低数据的获取门槛，提升数据的使用价值。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Python+

Go+

高并发+

Hive+

ClickHouse+

MySQL+

还有更多 •••

登录查看完整学习资料

相关职位

大模型推理存储系统工程师/专家-Seed

社招A121315

团队介绍：字节跳动豆包大模型团队（Seed）成立于 2023 年，致力于寻找通用智能的新方法，追求智能上限，并探索新的交互。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等，在中国、新加坡、美国等地设有实验室和岗位。豆包大模型团队在 AI 领域拥有长期愿景与决心，坚持深耕基础，期望成为世界一流的 AI 研究团队，为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力，支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责机器学习系统存储相关组件的设计和开发，服务于大模型推理的各业务场景（LLM/S2S/VLM/多模态等），包括模型分发加载、KV Cache存储和优化，数据IO性能优化，提高推理TTFT、TBT等核心性能指标； 2、负责设计和实现面向大模型推理的多层级存储系统，综合利用显存、本地内存、分布式内存/磁盘、远端大容量存储系统（HDFS/对象存储）等多种介质进行数据的存储和迁移管理，实现「近计算缓存+远端大容量存储」的一体化分级系统； 3、负责优化大模型KV Cache命中率，从推理框架，流量调度，多级缓存等多个系统纬度入手定制化优化策略；优化数据的读取性能，充分利用近计算侧的NVLink、RDMA高速网络、GPU Direct技术实现数据的高效传输；优化数据副本的存放策略，实现负载流量和存储数据的合理化分布； 4、负责设计和实现高效、易用的数据访问接口，实现和推理框架、引擎的无缝对接，管理KV Cache的生命周期； 5、负责Kubernetes场景下多级存储系统的接入、管理、运维、监控，确保稳定性； 6、负责多机房、多地域、多云场景的系统搭建和容灾，优化跨集群的数据摆放。

更新于 2024-12-20上海

大模型搜索算法工程师/专家-OpenSearch

社招A140205

团队介绍：字节跳动搜索团队主要负责抖音、今日头条、西瓜视频等产品的搜索算法创新和架构研发工作。我们使用最前沿的机器学习技术进行端到端建模并不断创新突破，同时专注于分布式系统、机器学习系统的构建和性能优化，从内存、Disk等优化到索引压缩、召回、排序等算法的探索，充分给同学们提供成长自我的机会。主要工作方向包括：1）探索最前沿的NLP技术：从基础的分词、NER，到应用上的Query分析、基础相关性等，全链路应用深度学习模型，每个细节都充满挑战；2）探索跨模态匹配技术：在搜索中应用CV+NLP深度学习技术，让视频搜索拥有更强大的检索能力；3）探索大规模流式机器学习技术：应用大规模机器学习，解决搜索中的推荐问题，让搜索更加个性化更加懂你；4）探索千亿级数据规模的架构：从大规模离线计算，分布式系统的性能、调度优化，到构建高可用、高吞吐和低延迟的在线服务，方方面面都进行深入研究和创新。 1、探索搜索引擎与大模型、LLM、MLLM、多模态、机器学习、强化学习等前沿技术的结合，实现搜索引擎全链路革新并进行极致的系统优化，探索提升AI搜索引擎的能力，包含而不限于相关性、权威性、时效性、意图理解能力等；探索LLM适性索引、LLM相关性、生成式召回、排序大模型等； 2、构建大规模高质量数据（数据建设、数据抓取与解析、数据合成等）、训练和优化AI搜索的机器学习模型（多模态内容理解、指令微调、索引筛选、Query分析、Scalable Oversight、Long CoT、模型推理/规划、模型优化、构建全面客观准确的评测体系等）； 3、探索推进AI搜索、AIGC创新应用的落地（包含而不限于豆包、电商、抖音、智能硬件、AI找搭配/虚拟穿搭等大模型应用场景），研发以人工智能技术为核心的新技术、新产品，探索满足用户的智能交互需求，提升现实与物理世界的交互能力。

更新于 2025-02-25北京

大语言模型算法工程师-豆包大模型

社招1年以上A45344A

1、发现优化大模型的简单、普适的想法，并应用到各个规模的模型中提升效果； 2、推进数据建设、指令微调、偏好对齐、继续预训练等模型优化方面的工作，提高模型质量和适应性； 3、探索复杂指令、长上下文、多轮对话下，大模型更为复杂的理解、推理和生成能力； 4、基于语言处理、内容创作、教育Tutor、角色扮演、复杂Agent、AI搜索和工具、代码助手等服务和应用优化模型效果； 5、推进大模型效果评估，尤其是复杂场景（多轮对话、开放领域）评估集建设和自动化评估能力建设； 6、深入研究和探索大模型在ToB企业服务中的更多使用场景，拓展模型的应用范围，如搜索、推荐、广告、创作、客服和办公等各类场景。

更新于 2025-02-18杭州

豆包AI应用工程师-Data

社招A10537B

1、与解决方案产品经理合作，深入理解初创企业的需求并设计技术解决方案，确保商业目标与技术实施之间的一致性； 2、了解豆包大模型家族的模型特性，能够设计和开发AI应用程序和原型，验证产品概念和需求，展示企业用例的大模型集成模式； 3、在企业采用豆包大模型的整个过程中，作为主要的技术负责人，协调内部多个团队以推动客户成功； 4、分析和定位模型能力缺陷，协助构建模型评测，帮助算法和数据团队推进模型迭代； 5、帮助企业开发轻量级评估框架和测试套件，以衡量豆包大模型对其特定用例的性能。

更新于 2025-06-04北京