京东 SQL数据分析计算代码的生成实现与应用
任职要求
1、获得本科及以上学历,计算机、人工智能、自动化、数学、物理等相关专业; 2、深入理解人工智能、机器学习等专业知识,有丰富的生成建模研究和工程经验; 3、熟练掌握业界开源大模型和开源深度学习框架,如:Llama,GPT,PyT…
工作职责
该岗位将致力于推动公司在大模型应用(Copilot)方面的进展,引领公司在开发生成模型和算法方面的努力,重点推进公司大数据计算和分析的SQL代码生成,做到自动研发;公司寻找具备生成建模研究经验的研究人员,兼具优秀的工程能力,他们不仅能够依托公司优质的大数据资源,站在业界已有的大模型肩膀上,提出算法改进方案,还能推动精调模型在公司规模化落地,提升公司大数据研发效率的同时,打造公司在大模型时代的业界技术影响力。具体职责有, 1、依托公司海量数据资源,基于业界开源的大模型技术,开发符合公司业务诉求的SQL生成大模型,包括设计,实现与评估,以及规模化落地业务; 2、实时跟踪大模型研究进展,探索研究下一代大模型技术,包括模型结构算法的创新,合成数据研究,超大规模分布式AI工程系统设计与实现等; 3、与团队成员和其他部门紧密协作,创新,共同推动大模型技术前沿发展,打造公司AI在业界的影响力。
参与主站消费基础体验的智能优化探索落地,包括但不限于以下工作: 1. 客户端代码实现:与团队成员一起参与快手主站客户端代码开发,包括但不限于体验策略、性能优化、稳定性优化等;编写高质量的代码,确保线上App的稳定性、高性能; 2. 数据pipeline建设:参与相关模块的数据产出开发,满足数据分析与策略迭代诉求; 3. 实验数据分析和策略制定:参与分析线上数据,根据对实验数据的拆分与下探判断实验运行现状。基于数据现状,参与优化策略的制定与模型训练迭代; 4. 智能提效工具开发:利用大模型,参与完成客户端相关模块排障与数据分析提效工具开发。

1. AI技术融合与优化:将人工智能技术,特别是大语言模型(e.g. DeepSeek , OpenAI, Qwen),融入公司业务团队的开发测试流程,提升产品研发效率和质量。 - 自动化工具开发:开发AI辅助工具,如代码审查工具、自动测试用例生成工具、性能瓶颈分析工具等,提高研发测试的自动化程度。 - 数据处理与分析:利用大模型和AI工具处理大量研发测试数据,包括代码、测试用例、测试执行日志等,优化数据处理流程。 2. AI知识库系统构建 - 知识库设计:设计和构建高效、准确的AI知识库系统,支持业务部门的专业知识生成和服务。 - RAG系统开发:构建和优化RAG(Retrieval-Augmented Generation)系统,实现从知识库中快速准确地检索相关信息,并生成高质量的业务文档和回答。 3. AI辅助工具平台开发 - 工具平台设计:设计和开发AI辅助工具平台,提供统一的接口和工具集,支持多种AI应用。 - 用户支持:为业务部门提供技术支持,确保AI工具平台的稳定运行和高效使用。 4. 技术解决方案制定 - 技术选型:根据项目需求,选择合适的大模型和技术框架,确保技术选型的合理性。 - 架构设计:设计系统的整体架构,确保系统的可扩展性、可维护性和高性能。 - 数据处理策略:制定数据处理策略,确保数据的准确性和一致性,优化数据流和存储方案。 5. 项目管理和团队协作 - 需求分析:与业务部门紧密合作,理解业务需求,提供技术解决方案。 - 项目管理:跟踪项目进度,确保按时交付高质量的AI系统。 - 团队协作:与团队成员协作,分享知识和经验,推动团队整体技术水平的提升。
通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 数据的规模和质量对模型效果起到至关重要的作用,团队重视数据的 scaling,包括但不限于自然语言、代码、多模态等数据的 scaling。团队正在寻找适应快速变化、热衷解决大规模数据挑战的算法工程师,专注于大模型预训练中的数据收集、处理与优化。面对百亿至千亿级别的数据规模,设计高效的数据处理管线,与纯文本和多模态预训练团队深度协作,持续提升数据质量和模型性能。 工作职责: 1. 需求对接与迭代: 快速理解模型预训练需求,灵活调整数据方案以适应高频迭代。 2. 数据处理与优化: 开发工具完成数据收集、清洗、格式转换(如HTML2Text、PDF2Text、ASR等),构建验证与测试集以量化性能指标,优化流程以应对超大规模数据挑战。 3. 管线搭建与扩展: 构建自动化、高效率的数据处理管线,优化组件性能,确保稳定性和可扩展性。 4. 协助数据平台建设:与平台团队合作共建数据平台,分析使用痛点,提出建议意见以改进易用性,并跟进落实。 5. 技术支持与创新: 追踪业界技术进展,为预训练团队提供数据支持,探索新技术以提升数据价值和模型效果。
