logo of dingtalk

钉钉钉钉-大模型数据平台专家 / 架构师-(AI Data Infrastructure)

社招全职5年以上技术类-开发地点:杭州状态:招聘

任职要求


● 计算机相关专业本科及以上学历,5年以上后端或全栈开发经验。
● 精通 Python/Go/Java 中至少一门语言,熟悉 K8s、Docker 等容器化技术,有大规模分布式系统设计经验。
● 在 Scale.ai 等公司从事过数据平台研发者优先,有过 Label Studio, CVAT, Doccano …
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、团队愿景:在大模型进入深水区的今天,真正拉开差距的,不再只是模型结构,而是数据的质量、成本与评测方法。
我们对标 Scale AI,正在建设主权模型时代的 AI 数据基础设施:以最低的总体成本,持续为模型训练与迭代提供最高质量的数据、数据配方与评测体系。
在这里,你将参与决定用什么样的数据能真正塑造模型能力,把分散、复杂、真实的业务数据,转化为可    规模、可验证、可复用的模型竞争力,参与定义 AI 时代最底层、也最关键的基础设施。
2、 主导多模态模型训练数据的生产项目:作为算法与标注资源的“连接器”,将抽象的模型需求转化为可执行的标注规则和验收标准。管理内外部标注团队(包括外包/众包资源),把控项目进度与成本,确保大规模数据交付的准时率与合格率。
3、流程设计与工程优化:设计 SFT、 RLHF 等数据流转机制,搭建高效的 Workflow。协同多方团队,优化标注效率和质量。
4、负责构建从数据寻源、抓取、到复杂异构数据解析的全流程系统,解决多模态数据的清洗与结构化难题。
5、利用模型生成数据等方式,构建自动化数据扩充流水线,降低对人工标注的依赖,突破数据规模瓶颈。
6、建立数据质量评估体系,系统性分析标注数据的质量分布特征,提升标注效率。
包括英文材料
学历+
Python+
Go+
Java+
Kubernetes+
还有更多 •••
相关职位

logo of bytedance
社招5年以上A127410

团队介绍:字节跳动基础架构数据库团队,致力于构建认知型数据基础设施,持续定义数据技术的未来边界。团队基于全栈自研技术,打造了涵盖关系型数据库、NoSQL 数据库、大规模图平台、多模态搜索、云原生中间件等十余项产品的数据库矩阵,用独创的技术架构实现事务处理、混合查询、智能检索等全场景覆盖。我们不仅支撑集团核心业务,更通过火山引擎为客户提供具备企业级稳定性的数据库产品,助力客户以数据驱动实现业务增长。团队在大规模分布式架构、极致性能计算/存储引擎、软硬协同优化等领域具备顶尖技术积淀。面向 AI 时代,我们正在突破传统架构边界:一方面深化 AI 原生驱动内核、AI 算子优化等创新方向,推动数据库向智能 Copilot 演进;另一方面聚焦超大规模图计算、分布式跨模态数据联邦查询等前沿领域,构建支持跨模态数据管理的下一代设施。我们践行“务实浪漫”的极客文化,既在 VLDB 、SIGMOD 等顶级会议持续输出突破性成果,又以商业落地为导向打造全场景的产品矩阵。团队汇聚众多顶尖数据库专家和卓越工程师,分布在国内/海外多地。现诚邀具备数据库内核研发经验、分布式系统架构能力及 AI 创新视野的优秀人才,共同探索技术无人区,定义 AI 时代的数据基座,赋能全球企业实现 AI 驱动的业务变革。 1、负责AI时代的数据库架构设计:涵盖支持AI/ML工作负载的新型数据库系统架构,优化AI模型训练与推理的数据访问效率;构建支持向量搜索、图计算、时序分析等AI场景的混合型数据库解决方案,探索LLM大模型与数据库系统的深度集成方案,如自然语言SQL生成、智能查询优化; 2、负责数据库智能策略研发:研发基于 AI 的数据库性能调优系统,包括自动索引推荐、查询计划优化、资源分配策略等;构建智能监控系统,实现异常检测、根因分析、容量预测等AIOps能力;开发自适应存储引擎,根据数据访问模式动态调整存储结构; 3、负责AI数据基础设施构建:构建AI数据基础设施,如支持特征工程、模型训练、推理服务的全流程数据管道架构,实现数据库与机器学习框架(TensorFlow/PyTorch)的高效对接; 4、负责AI与数据库结合的实践方案探索与落地:探索AI技术和数据库各产品结合的最佳实践方案并落地,服务超大规模的集团内部业务及火山引擎业务。

更新于 2025-03-04北京
logo of dingtalk
社招5年以上技术类-算法

1. 参与大模型Post-Training(SFT, RM, RLHF等)算法的研发与迭代,深入研究并解决训练过程中的效率瓶颈与收敛性问题,持续提升模型的逻辑、推理及生成能力,直接对用户体验负责。 2. 探索并实践面向各领域的高质量数据自动化合成技术(如Self-Instruct, Constitutional AI等),设计并构建高效、可扩展的线上数据飞轮(Data-Flywheel)闭环系统,实现模型能力的自我迭代与增强。 3. 与产品、工程团队紧密协作,洞察并挖掘LLM在企业垂直场景的巨大潜力,参与从0到1的创新产品孵化,推动技术成果的商业化落地。

更新于 2025-12-30杭州
logo of aliyun
社招5年以上云智能集团

我们正处于计算范式发生根本性代际跃迁的奇点时刻,AI不仅仅是技术栈的更迭,更是数字世界底层逻辑的重写。在阿里云AI原生事业部,你将置身于中国最丰富的产业场景中,与客户共同探索AI如何成为业务核心生产力。你将站在技术与商业的交汇点,基于阿里云MaaS产品与大模型能力,设计面向未来的AI Native解决方案。 职位描述 1、负责AI原生客户的售前工作,支持销售拿到业务结果,推动阿里云AI Native与MaaS相关产品及解决方案的落地,助力客户成功。 2、作为AI技术专家,基于阿里云MaaS服务及大模型能力,为客户提供整体技术架构与解决方案设计,并在落地过程中提供必要的技术指导,确保方案可落地、有竞争力。 3、深入理解客户业务场景,围绕AI Native应用形态,设计从模型能力到系统架构的完整解决方案。 4、参与客户的方案比选,主导POC演示、功能/性能验证,量化模型效果、系统性能及成本收益,在保证性能、安全与稳定性的前提下实现成本最优。 5、负责所支持区域及行业的市场洞察与解决方案制定,能够把握AI技术及产业发展趋势,推动AI Native 解决方案的创新与规模化复制。 6、建立行业影响力,参与内外部行业沙龙及技术分享,传播AI Native与MaaS架构最佳实践。 7、为客户提供整体 AI 技术架构服务,包括模型选型、推理性能优化、成本治理、系统稳定性设计及安全合规方案。

更新于 2026-02-13成都|北京|武汉
logo of aliyun
社招3年以上产品类-商业型

1. 产品规划与定义: 基于Flink开源技术演进趋势及用户需求,主导大数据引擎类产品的路标规划与功能设计,并对产品用户使用体验与市场价值负责。 2. 产品全生命周期管理: 负责Flink产品的全生命周期管理(从概念到退市),以用户价值为核心,交付安全、稳定、易用且具备成本效益的产品。有效协调并驱动研发、测试、运营、客服等多职能团队,确保达成产品业务目标。 3. 产品布道与用户洞察: 主导产品布道工作,包括内外部技术培训、市场活动推广及数据分析解读。深入关注用户反馈与行为数据,驱动产品用户体验的持续优化,对用户转化率、留存率、客户价值及满意度负责。 4. 市场与技术研究: 围绕实时计算领域(基于Flink),进行开源大数据技术深度分析、开源大数据市场动态研究及竞争对手调研,为产品战略决策提供洞察。

更新于 2025-07-02北京|杭州