logo of alibaba

阿里巴巴业务技术-大模型数据工程师-急招

社招全职3年以上地点:杭州状态:招聘

任职要求


基础要求:
1. 本科及以上学历,计算机、人工智能等相关专业优先
2. 3年以上大规模数据处理或模型训练工作经验
3. 精通PythonJava等至少一种编程语言,熟悉SQL及数据库操作
技术要求:
1. 精通文本、多模态等非结构化数据处理方法
2. 掌握数据清洗、特征提取、数据增强等核心技术
3. 熟悉深度学习框架(PyTorch等)和模型训练推理技术
4. 掌握AI数据合成技术,包括提示词工程、模型调用、数据生成质量评估等
5. 具备优秀的分析和解决复杂问题的能力
软技能:
1. 学…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


负责为大模型训练和Agent构建准备高质量数据,专注于海量数据收集、清洗、处理工作,为模型训练提供优质数据支撑。

1. 数据收集与获取:通过API接口、公开数据集、合作伙伴等多种方式收集文本、代码、多模态等训练数据
2. 数据清洗与预处理:进行数据去重、格式转换、质量筛选、内容过滤,处理HTML2Text、PDF2Text、OCR、ASR等格式转换
3. 数据标注与构建:设计数据标注方案,构建高质量的监督学习、强化学习训练数据集和评估数据集
4. 数据合成与生成:使用AI技术进行数据合成,包括文本生成、代码生成、多模态数据生成等,扩充训练数据规模
5. 需求对接与迭代:与模型训练团队、Agent开发团队密切协作,快速响应数据需求,持续优化数据质量
6. 工具开发与优化:开发数据处理工具和脚本,优化处理流程效率,确保大规模数据处理的稳定性
包括英文材料
学历+
Python+
Java+
SQL+
深度学习+
还有更多 •••
相关职位

logo of alibaba
社招1年以上

作为集团 AI 基础设施的关键组成部分,你将负责内部大模型网关(AI Hub)的设计、开发与持续演进,打造统一、高效、智能的大模型服务接入平台。 我们向下聚合集团内外多源大模型能力(包括自研及第三方 LLM、多模态模型等),向上为搜索、客服、内容生成、智能办公等数十个高并发业务场景提供标准化、低门槛的 API 接入服务。 面对万级QPS、毫秒级延迟、十万亿Token 级计量等严苛挑战,你将深度参与以下核心技术方向: - 构建智能路由引擎,支持按模型能力、成本、延迟 SLA、地域等维度动态调度请求; - 设计精细化流量治理体系,实现多租户配额管理、Token 级限流、优先级队列与熔断降级; - 打造商业化计费与用量追踪系统,支撑按 Token、时长或套餐的灵活计费模式; - 优化流式推理链路(SSE/WebSocket),保障长上下文、高吞吐场景下的低首Token延迟(TTFT)与稳定性; - 协同底层算力平台,推动网关与推理引擎(如 vLLM、TGI)的高效协同,提升 GPU 资源利用率。 你的工作将直接影响集团 AI 能力效率、服务成本与用户体验,是推动 AI 工程化落地的核心力量!加入我们,一起创造价值~

更新于 2026-02-05杭州
logo of alibaba
社招1年以上

1. 负责大模型(LLM/MLLM)核心技术研发,包括预训练、垂域SFT、RLHF等,持续追踪和应用领域最新技术进展; 2. 负责大模型性能优化:研发模型加速技术,如量化、剪枝与知识蒸馏;优化数据特征与调度策略;构建高效推理链路、提升运行速度及降低成本; 3. 基于淘天用户丰富的消费行为,打造技术先进的电商用户理解大模型,提升对用户的异构行为本质的认知能力,支撑用户个性化的搜索、商详、互动等多种电商业务场景; 4. 基于淘天海量商品数据,打造技术先进的电商多模态大模型,提升对多模态异构的商品数据(图、文、视频等)的理解能力和结构化能力,输出底层算法能力和高质量结构化数据,支撑多种电商业务场景,并面向商家和消费者探索AIGC等创新业务应用; 5. 持续跟踪、探索大模型/多模态大模型方向的前沿技术,将各方向的SOTA能力集成到模型底座上,提升下游任务的效果,打造团队的技术先进性。

更新于 2025-11-18北京|杭州
logo of alibaba
社招1年以上

团队介绍 淘宝搜索不仅是阿里电商的核心流量入口,更是承接数亿用户购物需求、驱动集团业务增长的超级引擎。作为全集团算法密度最高、数据规模最大、业务复杂度最强的核心场景,我们正在经历从“传统搜索”向“下一代 AI 搜索”的深刻变革。 在这里,你的每一行代码都可能重塑亿万用户的购物体验,每一次技术决策都可能驱动电商大盘的增长引擎。搜索远不止“查询”——它是一个高度个性化的超级入口:千人千面、千次搜索千种链路,不同搜索词触发不同的召回、排序与展现策略。业务快速迭代,新场景层出不穷,挑战与创新始终并存。 在这里,你面临的既有分布式系统超高并发、极低延迟的架构挑战,也有 AI 大模型在工业级产品落地的无限可能。这不仅是一份工作,更是一块 AI 技术的真实试验田。如果你渴望在AI与工程的交汇点深耕成长,这里就是你成为未来AI型技术人才的最佳土壤。 加入我们,与顶尖的算法和工程专家并肩作战,共同定义未来的搜索形态,成为真正的 AI 复合型人才。 岗位职责 ● 引领下一代AI原生搜索系统:深度参与“生成式搜索”从理念到产品的全链路建设,推动大模型与传统搜索架构的深度融合。 ● 打造搜索运营智能体:从“AI辅助”迈向“AI自治”,定义并落地新一代智能运营范式,探索Agent在复杂电商场景中的极限能力。 ● 构建虚拟试穿与智能搭配平台:将前沿生成式AI技术转化为亿级用户可感知的极致体验,推动“看图购物”进化为“沉浸式体验购物”,重塑消费决策路径。 ● 夯实亿级高并发智能工程底座:在保障极致稳定性的前提下,突破大模型推理延迟瓶颈,打造支持未来智能电商的高性能、高可用、高智能系统架构。 ● 驱动搜索体验持续跃升:在AI赋能下,同步优化相关性、多样性与转化效率,为用户提升决策质量,为平台开辟新增长曲线。

更新于 2026-04-02杭州
logo of aligenie
社招1年以上

团队介绍 淘宝搜索不仅是阿里电商的核心流量入口,更是承接数亿用户购物需求、驱动集团业务增长的超级引擎。作为全集团算法密度最高、数据规模最大、业务复杂度最强的核心场景,我们正在经历从“传统搜索”向“下一代 AI 搜索”的深刻变革。 在这里,你的每一行代码都可能重塑亿万用户的购物体验,每一次技术决策都可能驱动电商大盘的增长引擎。搜索远不止“查询”——它是一个高度个性化的超级入口:千人千面、千次搜索千种链路,不同搜索词触发不同的召回、排序与展现策略。业务快速迭代,新场景层出不穷,挑战与创新始终并存。 在这里,你面临的既有分布式系统超高并发、极低延迟的架构挑战,也有 AI 大模型在工业级产品落地的无限可能。这不仅是一份工作,更是一块 AI 技术的真实试验田。如果你渴望在AI与工程的交汇点深耕成长,这里就是你成为未来AI型技术人才的最佳土壤。 加入我们,与顶尖的算法和工程专家并肩作战,共同定义未来的搜索形态,成为真正的 AI 复合型人才。 岗位职责 ● 引领下一代AI原生搜索系统:深度参与“生成式搜索”从理念到产品的全链路建设,推动大模型与传统搜索架构的深度融合。 ● 打造搜索运营智能体:从“AI辅助”迈向“AI自治”,定义并落地新一代智能运营范式,探索Agent在复杂电商场景中的极限能力。 ● 构建虚拟试穿与智能搭配平台:将前沿生成式AI技术转化为亿级用户可感知的极致体验,推动“看图购物”进化为“沉浸式体验购物”,重塑消费决策路径。 ● 夯实亿级高并发智能工程底座:在保障极致稳定性的前提下,突破大模型推理延迟瓶颈,打造支持未来智能电商的高性能、高可用、高智能系统架构。 ● 驱动搜索体验持续跃升:在AI赋能下,同步优化相关性、多样性与转化效率,为用户提升决策质量,为平台开辟新增长曲线。

更新于 2026-04-02杭州