logo of bytedance

字节跳动数据服务工程师-豆包大模型

社招全职3年以上A158416地点:北京状态:招聘

任职要求


1、3年以上数据服务相关开发经验,熟练掌握PythonGolang等一种以上编程语言,有高并发和异步编程经验的优先;
2、熟悉Hudi,HiveClickHouseMysqlMongoES等数据湖和数据仓库,了解底层原理…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责千亿级别海量数据的管理,包括数据的存储,数据处理,数据安全,数据校验等等;
2、负责数据链路基建的研发,追求极致的处理速度,达到百万QPS的处理能力;
3、大规模数据的分析以及可视化的建设,从数据中挖掘出影响模型训练结果的可能因素,从而帮助模型训练改进;
4、与算法同学深度合作,加速训练数据的获取,提升数据质量,支持模型结果数据评测,打造数据闭环;
5、支持数据分析和数据可视化工作,降低数据的获取门槛,提升数据的使用价值。
包括英文材料
Python+
Go+
高并发+
Hive+
ClickHouse+
MySQL+
还有更多 •••
相关职位

logo of bytedance
社招A121315

团队介绍:字节跳动豆包大模型团队(Seed)成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限,并探索新的交互。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 豆包大模型团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责机器学习系统存储相关组件的设计和开发,服务于大模型推理的各业务场景(LLM/S2S/VLM/多模态等),包括模型分发加载、KV Cache存储和优化,数据IO性能优化,提高推理TTFT、TBT等核心性能指标; 2、负责设计和实现面向大模型推理的多层级存储系统,综合利用显存、本地内存、分布式内存/磁盘、远端大容量存储系统(HDFS/对象存储)等多种介质进行数据的存储和迁移管理,实现「近计算缓存+远端大容量存储」的一体化分级系统; 3、负责优化大模型KV Cache命中率,从推理框架,流量调度,多级缓存等多个系统纬度入手定制化优化策略;优化数据的读取性能,充分利用近计算侧的NVLink、RDMA高速网络、GPU Direct技术实现数据的高效传输;优化数据副本的存放策略,实现负载流量和存储数据的合理化分布; 4、负责设计和实现高效、易用的数据访问接口,实现和推理框架、引擎的无缝对接,管理KV Cache的生命周期; 5、负责Kubernetes场景下多级存储系统的接入、管理、运维、监控,确保稳定性; 6、负责多机房、多地域、多云场景的系统搭建和容灾,优化跨集群的数据摆放。

更新于 2024-12-20上海
logo of bytedance
社招A140205

团队介绍:字节跳动搜索团队主要负责抖音、今日头条、西瓜视频等产品的搜索算法创新和架构研发工作。我们使用最前沿的机器学习技术进行端到端建模并不断创新突破,同时专注于分布式系统、机器学习系统的构建和性能优化,从内存、Disk等优化到索引压缩、召回、排序等算法的探索,充分给同学们提供成长自我的机会。主要工作方向包括:1)探索最前沿的NLP技术:从基础的分词、NER,到应用上的Query分析、基础相关性等,全链路应用深度学习模型,每个细节都充满挑战;2)探索跨模态匹配技术:在搜索中应用CV+NLP深度学习技术,让视频搜索拥有更强大的检索能力;3)探索大规模流式机器学习技术:应用大规模机器学习,解决搜索中的推荐问题,让搜索更加个性化更加懂你;4)探索千亿级数据规模的架构:从大规模离线计算,分布式系统的性能、调度优化,到构建高可用、高吞吐和低延迟的在线服务,方方面面都进行深入研究和创新。 1、探索搜索引擎与大模型、LLM、MLLM、多模态、机器学习、强化学习等前沿技术的结合,实现搜索引擎全链路革新并进行极致的系统优化,探索提升AI搜索引擎的能力,包含而不限于相关性、权威性、时效性、意图理解能力等;探索LLM适性索引、LLM相关性、生成式召回、排序大模型等; 2、构建大规模高质量数据(数据建设、数据抓取与解析、数据合成等)、训练和优化AI搜索的机器学习模型(多模态内容理解、指令微调、索引筛选、Query分析、Scalable Oversight、Long CoT、模型推理/规划、模型优化、构建全面客观准确的评测体系等); 3、探索推进AI搜索、AIGC创新应用的落地(包含而不限于豆包、电商、抖音、智能硬件、AI找搭配/虚拟穿搭等大模型应用场景),研发以人工智能技术为核心的新技术、新产品,探索满足用户的智能交互需求,提升现实与物理世界的交互能力。

更新于 2025-02-25北京
logo of bytedance
社招1年以上A45344A

1、发现优化大模型的简单、普适的想法,并应用到各个规模的模型中提升效果; 2、推进数据建设、指令微调、偏好对齐、继续预训练等模型优化方面的工作,提高模型质量和适应性; 3、探索复杂指令、长上下文、多轮对话下,大模型更为复杂的理解、推理和生成能力; 4、基于语言处理、内容创作、教育Tutor、角色扮演、复杂Agent、AI搜索和工具、代码助手等服务和应用优化模型效果; 5、推进大模型效果评估,尤其是复杂场景(多轮对话、开放领域)评估集建设和自动化评估能力建设; 6、深入研究和探索大模型在ToB企业服务中的更多使用场景,拓展模型的应用范围,如搜索、推荐、广告、创作、客服和办公等各类场景。

更新于 2025-02-18杭州
logo of bytedance
社招A10537B

1、与解决方案产品经理合作,深入理解初创企业的需求并设计技术解决方案,确保商业目标与技术实施之间的一致性; 2、了解豆包大模型家族的模型特性,能够设计和开发AI应用程序和原型,验证产品概念和需求,展示企业用例的大模型集成模式; 3、在企业采用豆包大模型的整个过程中,作为主要的技术负责人,协调内部多个团队以推动客户成功; 4、分析和定位模型能力缺陷,协助构建模型评测,帮助算法和数据团队推进模型迭代; 5、帮助企业开发轻量级评估框架和测试套件,以衡量豆包大模型对其特定用例的性能。

更新于 2025-06-04北京