钉钉钉钉-大模型数据平台专家 / 架构师-(AI Data Infrastructure)

社招全职5年以上技术类-开发2026-02-03地点：杭州状态：招聘

扫码手机上打开

任职要求

● 计算机相关专业本科及以上学历，5年以上后端或全栈开发经验。
● 精通 Python/Go/Java 中至少一门语言，熟悉 K8s、Docker 等容器化技术，有大规模分布式系统设计经验。
● 在 Scale.ai 等公司从事过数据平台研发者优先，有过 Label Studio, CVAT, Doccano …

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、团队愿景：在大模型进入深水区的今天，真正拉开差距的，不再只是模型结构，而是数据的质量、成本与评测方法。
我们对标 Scale AI，正在建设主权模型时代的 AI 数据基础设施：以最低的总体成本，持续为模型训练与迭代提供最高质量的数据、数据配方与评测体系。
在这里，你将参与决定用什么样的数据能真正塑造模型能力，把分散、复杂、真实的业务数据，转化为可    规模、可验证、可复用的模型竞争力，参与定义 AI 时代最底层、也最关键的基础设施。
2、 主导多模态模型训练数据的生产项目：作为算法与标注资源的“连接器”，将抽象的模型需求转化为可执行的标注规则和验收标准。管理内外部标注团队（包括外包/众包资源），把控项目进度与成本，确保大规模数据交付的准时率与合格率。
3、流程设计与工程优化：设计 SFT、 RLHF 等数据流转机制，搭建高效的 Workflow。协同多方团队，优化标注效率和质量。
4、负责构建从数据寻源、抓取、到复杂异构数据解析的全流程系统，解决多模态数据的清洗与结构化难题。
5、利用模型生成数据等方式，构建自动化数据扩充流水线，降低对人工标注的依赖，突破数据规模瓶颈。
6、建立数据质量评估体系，系统性分析标注数据的质量分布特征，提升标注效率。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

Python+

Go+

Java+

Kubernetes+

还有更多 •••

登录查看完整学习资料

相关职位

数据库AI研究员/架构师-Data

社招5年以上A127410

团队介绍：字节跳动基础架构数据库团队，致力于构建认知型数据基础设施，持续定义数据技术的未来边界。团队基于全栈自研技术，打造了涵盖关系型数据库、NoSQL 数据库、大规模图平台、多模态搜索、云原生中间件等十余项产品的数据库矩阵，用独创的技术架构实现事务处理、混合查询、智能检索等全场景覆盖。我们不仅支撑集团核心业务，更通过火山引擎为客户提供具备企业级稳定性的数据库产品，助力客户以数据驱动实现业务增长。团队在大规模分布式架构、极致性能计算/存储引擎、软硬协同优化等领域具备顶尖技术积淀。面向 AI 时代，我们正在突破传统架构边界：一方面深化 AI 原生驱动内核、AI 算子优化等创新方向，推动数据库向智能 Copilot 演进；另一方面聚焦超大规模图计算、分布式跨模态数据联邦查询等前沿领域，构建支持跨模态数据管理的下一代设施。我们践行“务实浪漫”的极客文化，既在 VLDB 、SIGMOD 等顶级会议持续输出突破性成果，又以商业落地为导向打造全场景的产品矩阵。团队汇聚众多顶尖数据库专家和卓越工程师，分布在国内/海外多地。现诚邀具备数据库内核研发经验、分布式系统架构能力及 AI 创新视野的优秀人才，共同探索技术无人区，定义 AI 时代的数据基座，赋能全球企业实现 AI 驱动的业务变革。 1、负责AI时代的数据库架构设计：涵盖支持AI/ML工作负载的新型数据库系统架构，优化AI模型训练与推理的数据访问效率；构建支持向量搜索、图计算、时序分析等AI场景的混合型数据库解决方案，探索LLM大模型与数据库系统的深度集成方案，如自然语言SQL生成、智能查询优化； 2、负责数据库智能策略研发：研发基于 AI 的数据库性能调优系统，包括自动索引推荐、查询计划优化、资源分配策略等；构建智能监控系统，实现异常检测、根因分析、容量预测等AIOps能力；开发自适应存储引擎，根据数据访问模式动态调整存储结构； 3、负责AI数据基础设施构建：构建AI数据基础设施，如支持特征工程、模型训练、推理服务的全流程数据管道架构，实现数据库与机器学习框架（TensorFlow/PyTorch）的高效对接； 4、负责AI与数据库结合的实践方案探索与落地：探索AI技术和数据库各产品结合的最佳实践方案并落地，服务超大规模的集团内部业务及火山引擎业务。

更新于 2025-03-04北京

钉钉-大模型应用算法专家-杭州

社招5年以上技术类-算法

1. 参与大模型Post-Training（SFT, RM, RLHF等）算法的研发与迭代，深入研究并解决训练过程中的效率瓶颈与收敛性问题，持续提升模型的逻辑、推理及生成能力，直接对用户体验负责。 2. 探索并实践面向各领域的高质量数据自动化合成技术（如Self-Instruct, Constitutional AI等），设计并构建高效、可扩展的线上数据飞轮（Data-Flywheel）闭环系统，实现模型能力的自我迭代与增强。 3. 与产品、工程团队紧密协作，洞察并挖掘LLM在企业垂直场景的巨大潜力，参与从0到1的创新产品孵化，推动技术成果的商业化落地。

更新于 2025-12-30杭州

数据技术及产品部-AI数据资产架构师-杭州/北京

社招5年以上技术类-开发

负责AI数据资产体系构建与AI数据资产规划（DataMap），实现AI全模态数据标准化、流程化及资产化，加速AI数据在基模和AI应用之间效能转化；负责全模态线上化、自动化的高效数据验收。 1. 制定公司级AI数据资产地图，建设各个模态下的大模型训练的各个阶段数据的分类体系； 2. 通过AI技术创新手段对EB级AI数据资产进行全生命周期管理，采集→存储→标注→质检→版本控制→交付→复用/销毁； 3. 协同各领域（数据、生态、业务）专家制定并沉淀AI数据验收标准，建了线上化的验收机制，以适应不同垂域、不同模态数据的复杂性与精细化要求（如特效类视频、多语种方言、音画同步口型一致性等）； 4. 建设AI数据资产价值评估模型，量化不同AI数据资产对模型潜在提升度，指导数据采集&采买策略； 5. 搭建并完善AI数据质量模型，确保各模态AI数据资产的质量标准统一； 6. 设计并实施高效、动态的数据资产治理架构，保障AI数据资产的可持续增长及精准消费； 7. AI模型团队、AI业务产品团队紧密合作，深刻理解模型需求与业务痛点，将AI数据资产转化为驱动模型创新与业务增长的核心引擎。

更新于 2026-04-01杭州

阿里云智能-大模型解决方案架构师-AI Force（北京/上海/广州/深圳/杭州）

社招5年以上云智能集团

1、深入参与重点客户大模型及Agent业务落地过程（包括但不限于宣讲/poc/产研推动等），识别具备可复制性、规模效应的场景及方案，跨地域进行复制，对结果目标达成率负责。 2、大模型某个领域的行业专家，包括但不限于产品/场景/赛道，参与客户攻坚工作，并进行专项的行区赋能，对重点赛道份额、产品解决方案竞争力、核心产品竞争力负责。 3、所在区域的经营单元接口，了解区域通盘情况，并定期收集重点问题、共性问题、重点需求进行反馈，对区域重点需求和问题的推进结果负责。 4、竞对分析及行业信息探查，行业圈子建设，对业界动态敏感，影响产研资源投入及方向，重点产品友好客户一线接口人。 5、发掘及洞察大模型领域的新机会，对公司长期大模型业务的成功负责。

更新于 2026-03-31北京|深圳|杭州