京东大模型数据挖掘工程师
社招全职算法开发岗地点:北京状态:招聘
任职要求
1. 硕士及以上学历,计算机、数学、人工智能及STEM等相关专业; 2. 有扎实的计算机科学功底和编程能力,熟悉常见算法和数据结构,具有良好的编程习惯; 3. 熟悉语言或多模态模型的预训练、后训练及推理模型的数据链路构建、质量优化及效果评估提升,相信AGI和对相关工作抱有热情; 4. 工作认真务实,科学规划,具有极致的探究精神且知行合一,具备较强的责任感; 加分项: 1. 有大模型相关的数据研发、质量及效果评估经验的工作者优先; 2. 熟悉主流大模型数据质量构建策略或业界通用评估框架,曾深度参与大模型数据消融与质量评估等项目; 3. 具有敏锐的数据质量意识,熟悉开源大模型数据质量挖掘或评估框架等相关工具栈使用,有积极提升效率效果的意识。 符合京东价值观:客户为先、创新、拼搏、担当、感恩、诚信。
工作职责
作为大模型研发工程师/架构师,您将深度参与或主导以下一个或多个关键领域的工作: 1. 超大规模数据管理与清洗:数据全生命周期管理,数据质量工程,高质量的预训练、SFT数据、后训练及推理数据的构建、增强与优化; 2. 大模型训练合成数据策略:高效合成数据生成以补充现有数据的不足或领域数据的稀缺; 3. 数据质量及模型评估体系构建与优化:构建数据及模型质量的多维度评估策略,形成科学的指标评估体系,开发高效的评估平台与工具。
包括英文材料
学历+
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
数据结构+
https://www.youtube.com/watch?v=8hly31xKli0
In this course you will learn about algorithms and data structures, two of the fundamental topics in computer science.
https://www.youtube.com/watch?v=B31LgI4Y4DQ
Learn about data structures in this comprehensive course. We will be implementing these data structures in C or C++.
https://www.youtube.com/watch?v=CBYHwZcbD-s
Data Structures and Algorithms full course tutorial java
编程规范+
[英文] Google Style Guides
https://google.github.io/styleguide/
Every major open-source project has its own style guide: a set of conventions (sometimes arbitrary) about how to write code for that project. It is much easier to understand a large codebase when all the code in it is in a consistent style.
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
相关职位
社招TEG技术
1.基于大模型训练对于数据的需求进行互联网数据抓取,对提供给大模型训练/搜索等场景的语料进行清洗,提升语料纯度; 2.建设对标业内前沿的大模型训练数据集和数据清洗能力,提升数据质量和多样性,并验证数据价值和效果。
更新于 2025-06-18
社招D4124
1、数据pipeline建设:负责视频生成大模型的训练数据构建与管理,参与数据筛选、标注及质量评估工作。分析和挖掘现有数据资源,设计有效的数据分布策略,支持模型的持续迭代; 2、数据分布分析:对模型训练数据分布进行详细分析,识别数据偏差、不均衡及潜在问题。提供数据分布的可视化报告及改进建议,确保模型训练数据覆盖目标场景和多样性需求; 3、用户数据分析:分析用户交互数据,评估视频生成效果与用户满意度,提取用户反馈中的数据优化方向。构建用户行为分析模型,探索用户需求变化并为模型优化提供参考; 4、优化模型生成效果:构建数据飞轮。通过数据驱动的方法优化视频生成大模型效果,结合A/B测试等手段验证调整效果。与算法工程师合作,制定数据调整与扩展策略,提升模型在真实场景中的生成能力。
更新于 2025-06-20
社招3年以上技术类-数据
1、基于支付宝端海量数据,通过数据挖掘算法、大模型等手段,深度挖掘支付宝内部服务/服务动线,深度参与到支付宝端侧智能建设; 2、探索基于海量用户行为数据,实现对用户行为挖掘\理解和感知,探索app新的操作模式;
更新于 2025-08-18