字节跳动算法策略工程师/专家-企业服务大模型方向-广州/深圳
任职要求
1、良好的设计和编码风格,热爱写代码,能产出高质量的设计和代码; 2、出色的分析问题、解决问题能力,能从纷繁复杂的数据中看出问题本质; 3、掌握LLM模型的算法原理、Fine-tuning、Prompt Engineering、向量数…
工作职责
1、负责AI Native应用的算法研发和LLM效果优化工作,推动最前沿技术的探索和应用; 2、提升自然语言理解的能力,比如意图识别,NL2SQL,向量召回,结构化/非结构化,短文本/长文本的表征学习等; 3、探索Agent在复杂任务中的应用,实现基于LLM的复杂任务在企业服务领域场景的应用落地; 4、结合最前沿的LLM技术,对用户行为进行总结、理解、画像等探索。
我们正在寻找一位熟悉数据中心建设、服务器部署与高性能网络运维的优秀工程师,加入我们致力于构建*下一代AI算力基础设施的核心团队。 你将参与企业级GPU集群的规划、部署与持续优化,支撑大语言模型(LLM)千亿级参数训练任务的稳定运行。如果你热爱“硬核”系统工程,关注物理层到网络层的极致性能,并希望在AI时代打造真正的“算力底座”,欢迎加入! 你将负责: 1. AI数据中心规划与机房部署 参与新建或改造AI专用机房,完成服务器上架、电源配比、散热方案评估、PDU/UPS/BMC等基础设施配置,确保高密度GPU集群的可靠运行。 2. 大规模GPU集群部署与维护 主导NVIDIA A100/H100等高端GPU服务器的初始化、固件升级、驱动安装与健康监控;建立标准化部署流程(自动化装机、配置管理),提升交付效率。 3. 高性能网络架构支持(RDMA/InfiniBand/RoCE) 配合网络团队完成IB/RoCE网络部署,配置子网管理器(SM)、交换机(如 Mellanox/NVIDIA Quantum-2)、路由策略;保障低延迟、高带宽通信满足AllReduce需求。 4. NCCL通信性能调优与故障排查 协助算法团队分析分布式训练中的通信瓶颈,结合nccl-tests、ibstat、ethtool等工具进行链路诊断;优化GPU拓扑(NVLink/NVSwitch)、NUMA绑定、MTU设置等关键参数。 5. 基础设施监控与自动化运维 搭建硬件健康监控体系(温度、功耗、风扇、ECC错误等),集成Prometheus + Grafana + Alertmanager;编写脚本实现自动巡检、告警响应与故障定位。 6. 跨团队协作支持训练平台稳定运行 与开发、QA团队协同,为大模型训练提供稳定、高效的底层算力环境,快速响应宕机、链路中断、丢包等紧急问题。
团队介绍:字节跳动基础架构数据库团队,致力于构建认知型数据基础设施,持续定义数据技术的未来边界。团队基于全栈自研技术,打造了涵盖关系型数据库、NoSQL 数据库、大规模图平台、多模态搜索、云原生中间件等十余项产品的数据库矩阵,用独创的技术架构实现事务处理、混合查询、智能检索等全场景覆盖。我们不仅支撑集团核心业务,更通过火山引擎为客户提供具备企业级稳定性的数据库产品,助力客户以数据驱动实现业务增长。团队在大规模分布式架构、极致性能计算/存储引擎、软硬协同优化等领域具备顶尖技术积淀。面向 AI 时代,我们正在突破传统架构边界:一方面深化 AI 原生驱动内核、AI 算子优化等创新方向,推动数据库向智能 Copilot 演进;另一方面聚焦超大规模图计算、分布式跨模态数据联邦查询等前沿领域,构建支持跨模态数据管理的下一代设施。我们践行“务实浪漫”的极客文化,既在 VLDB 、SIGMOD 等顶级会议持续输出突破性成果,又以商业落地为导向打造全场景的产品矩阵。团队汇聚众多顶尖数据库专家和卓越工程师,分布在国内/海外多地。现诚邀具备数据库内核研发经验、分布式系统架构能力及 AI 创新视野的优秀人才,共同探索技术无人区,定义 AI 时代的数据基座,赋能全球企业实现 AI 驱动的业务变革。 1、负责AI时代的数据库架构设计:涵盖支持AI/ML工作负载的新型数据库系统架构,优化AI模型训练与推理的数据访问效率;构建支持向量搜索、图计算、时序分析等AI场景的混合型数据库解决方案,探索LLM大模型与数据库系统的深度集成方案,如自然语言SQL生成、智能查询优化; 2、负责数据库智能策略研发:研发基于 AI 的数据库性能调优系统,包括自动索引推荐、查询计划优化、资源分配策略等;构建智能监控系统,实现异常检测、根因分析、容量预测等AIOps能力;开发自适应存储引擎,根据数据访问模式动态调整存储结构; 3、负责AI数据基础设施构建:构建AI数据基础设施,如支持特征工程、模型训练、推理服务的全流程数据管道架构,实现数据库与机器学习框架(TensorFlow/PyTorch)的高效对接; 4、负责AI与数据库结合的实践方案探索与落地:探索AI技术和数据库各产品结合的最佳实践方案并落地,服务超大规模的集团内部业务及火山引擎业务。
B端搜索推荐要面对企业级权限体系与搜推系统深度耦合的难题,同时要解决企业规模、人员活跃度等企业/员工上下文带来的内容分发策略的挑战,充分利用企业的组织架构、员工在多种场景的行为互动数据,设计兼顾内容安全与搜推效果的混合搜推框架,突破传统C端的技术范式。 1. 构建千万级DAU的搜推系统,设计用户视角的搜推产品,应对流量洪峰带来的对系统各种维度的挑战,包括链路稳定性、内容分发延迟、特征实时性、数据多版本控制等。 2. 充分利用企业数据“小样本、高碎片、强逻辑”的特点,设计高效精准的数据、算法链路,挖掘企业用户画像,结合工作关系链等信息,实现各种场景下内容准确分发,另外结合钉钉端侧的优势, 设计端侧和服务侧结合的搜推方案,提升内容分发的实时性。 3. 大模型的出现对搜推系统的架构影响很大,端到端生成式搜索推荐是目前业界的研究热点,紧跟业界前沿,探索大模型在搜推算法、数据处理分析、用户行为特征挖掘等领域的运用。
我们是京东云,作为京东集团面向企业、政府等机构的技术服务品牌,是更懂产业的数智化解决方案提供商,致力于为企业、金融机构、政府等各类客户提供以供应链为基础的数智化解决方案。依托公、专、混的全栈式云产品矩阵,我们融合了人工智能、大数据、物联网等前沿科技,在零售、物流、健康、智能城市、金融科技等行业领域为客户提供了丰富的产品与数字化解决方案,帮助客户降低成本、提升效率,是值得信赖的产业数字合作伙伴。 推理: 1. 研发高性能推理算法: 设计并实现自注意力机制优化、并行推理、负载均衡、弹性容量等无损推理服务优化算法,提升服务效率与稳定性; 2. 探索轻量化推理技术: 深入研究和应用有损推理加速算法,包括但不限于知识蒸馏、模型量化、网络剪枝、KV-Cache压缩等,实现模型的高效部署; 3. 聚焦软硬件一体优化策略: 从计算图优化、算子融合、计算通信重叠、专家并行、vGPU虚拟化等多个维度入手,显著提升端到端推理性能; 训练: 1. 大语言模型/多模态大模型强化学习Reasoning模型算法、Reward模型、Verifier等算法研发; 3. 大语言模型/多模态强化Reasoning大模型长CoTs效率效果优化与RL Scaling-law研究; 4. 大语言/多模态大模型强化学习Test-time Compute在线推理算法研发。