阿里云阿里云智能-多模数据开发与应用-基础服务方向
任职要求
1. 本科及以上学历,计算机科学、软件工程或相关专业; 2. 8年以上分布式系统研发经验,具有扎实的C++、Java或Python编程能力 3. 熟练掌握Linux环境下的系统编程,具备较强的问题定位能力和丰富的性能调优经验,熟悉大型分布式下的编程,了解k8s、docker等容器化技术。 4.熟悉Oracle/SQLServer/MySQL/PG等关系型数据库,或熟悉MongoDB/Redis/HBase/Cassendra等开源数据库、队列产品,了解其原理或有运维经验者优先; 5. 熟悉数据湖技术,如hudi、iceberg、deltalake等 6. 熟悉相关元数据系统技术,如Glue Catalog、gravitino、Databricks UnityCatalog、GCP DataCatalog等 7. 熟悉大数据计算引擎,有Presto/Hudi/Hive/Spark/Flink/PowerBI等开发经验; 8. 具备良好的沟通能力和团队合作精神,能够与其他团队紧密合作 9. 具有快速学习新技术和适应新环境的能力 加分项: 1、主导过大型复杂项目的经验和方法 2、开源的代码贡献者或数据库内核开发者 3、对阿里云、AWS、微软云有认识。 5、在RDBMS、NoSQL、大数据三个领域中熟悉某一种产品的使用、原理、源码
工作职责
1. 负责设计和开发DMS的统一元数据系统;包括所支持的40+种数据源的深度化研究,并将相关技术转化为产品 2. 设计与开发 DMS 数据集成、任务调度系统,提升在多模、大规模数据场景下产品技术竞争力 3. 开发和维护DMS异构数据源查询、跨数据源联合分析、湖数据分析相关功能的能力; 4. 设计和实现大规模分布式系统,深度参与计算引擎与存储引擎的联合优化; 5. 与其他团队紧密合作,包括产品、测试和运维团队,确保软件开发流程的顺利进行; 6. 参与代码审查和团队技术分享活动,提高团队技术水平。
Lindorm数据库的定位是AI时代的海量多模数据平台,目前Lindorm针对高并发在线、泛时序数据、搜索和AI几个主要业务场景提供了多模数据的存储、检索、分析与AI推理服务。如何实现针对多个不同业务场景下复杂各异数据模型的高效存储与处理,以及探索如何更好利用AI来对非结构化数据进行分析和理解,实现结构化数据与非结构化数据的融合处理,都存在巨大的挑战。如今AI技术发展迅速,我们希望能够进一步探索多模数据和AI结合的更多场景,将Lindorm数据库打造成AI应用的基础设施。 基于以上背景,本项目重点聚焦如下技术问题的研究: 1、探索如何在一个统一的数据库框架和底座下高效存储和处理包括宽表、时序、JSON、向量等复杂数据模型; 2、探索数据库如何更好地利用Data + AI来增强数据库分析和处理文本、图像、语音和视频等非结构化数据的能力,方便用户开发和部署AI应用,挖掘数据价值。
1.负责1688与全网多模异构数据的信息抽取、对齐挖掘能力,提升商家选品Agent的需求感知能力 2.负责需求预测大模型训练优化,提升选品Agent的决策与规划能力 3.负责商家商品运营决策AIGA模型训练优化,包括商品优化、AI定价、营销决策等,提升商品运营Agent的商家生意效果 4.负责商品改款AIGC生成模型与商品理解多模态模型的训练优化 5.负责探索商品运营multi agent强化训练算法开发,通过商品多Agent协同决策持续提升商家经营效果 6.负责商家侧的客户画像、采购需求与复购周期预测,帮助商家高效运营买家 7.负责客户运营侧基于买家需求的AIGC营销内容优化,通过微信、小红书、站内信、外呼等多端渠道帮助商家持续激活买家复购
-负责大语言模型应用的算法调研、实验、开发工作,结合大规模语言模型(LLM)技术,快速构建AI能力 -技术方向包括但不限于:大模型训练与优化、智能问答、任务式对话、query解析与改写、语义检索、阅读理解、文本聚合、跨模态理解等 -结合AI原生应用场景需求与数据,设计解决方案,解决业务问题,快速满足需求,创造实用价值。支持算法在项目上落地 -快速评估算法效果,跟进前沿技术方案与开源大模型,形成创新思路
数据与训练方向: 1.大模型数据体系建设:构建多语言和多模态的数据处理流程和实验链路,优化数据的筛选与配比策略,探索动态数据调整、多阶段训练和课程学习等方法提升数据质量和多样性,优化大模型的训练效果。 2.合成数据探索:探索大规模合成数据方法,应用于复杂任务、推理、代码和多模态等场景。制定合成数据在预训练、强化学习等不同训练阶段的应用策略,并深入研究数据扩展规模定律、数据多样性和模型坍塌等基础问题,推动数据驱动的性能突破。 3.多模态学习与推理:探索多模态预训练的新范式,突破模态融合瓶颈。具体包括实现多模态能力的早期融合、理解与生成的统一建模,研究多模态扩展定律以指导数据与训练方案,扩展超长上下文机制以支持全模态场景等。同时,面向复杂的多模态推理与交互场景,探索多模态强化学习、多模态奖励模型、推理阶段扩展(test-time scaling)以及全模态链式思维(CoT)等方法,提升模型处理复杂任务和全模态交互的能力。 4.高效模型架构设计:设计高效的大模型架构以提升训练和推理效率。探索 MoE(混合专家)、稀疏注意力、线性注意力等高效模型结构,以及模型编辑与合并等技术,研发能够显著提升推理速度和资源利用率的新型模型架构。 5.推理效率与性能优化:推动算法与系统的协同优化,实现模型性能与效率的最大化平衡。基于对硬件计算潜力的深度挖掘,开发高效的模型推理方案和算法,包括模型压缩、剪枝、量化、稀疏化等,降低模型应用部署成本。 后训练方向: 1.后训练数据与流程建设,从指令数据生产、合成、进化、配比等方面提升数据质量,优化指令微调、强化学习、奖励模型等训练pipeline,提升模型综合能力; 2.后训练关键能力建设,包括但不限于优化模型创意生成、多语言、逻辑推理、复杂指令遵循、代码生成、工具调用等能力,提升模型可控性和安全性,拓展模型能力边界; 3.面向准确性、多模信息、最优路径等方向,探索奖励模型的新范式,构建统一模型学习环境,实现模型的价值对齐和能力对齐; 4.面向推理规划能力、多智能体系统、模型自进化等方向,探索下一代强化学习算法,持续提升大模型的智能水平和在真实复杂场景效果; 5.前沿探索:动态推理计算优化(Test-time Compute Optimization)、多智能体协同进化架构 、大规模强化学习系统优化等。