阿里云阿里云智能-多模数据开发与应用-基础服务方向
任职要求
1. 本科及以上学历,计算机科学、软件工程或相关专业; 2. 8年以上分布式系统研发经验,具有扎实的C++、Java或Python编程能力 3. 熟练掌握Linux环境下的系统编程,具备较强的问题定位能力和丰富的性能调优经验,熟悉大型分布式下的编程,了解k8s、docker等容器化技术。 4.熟悉Oracle/SQLServer/MySQL/PG等关系型数据库,或熟悉MongoDB/Redis/HBase/Cassendra等开源数据库、队列产品,了解其原理或有运维经验者优先; 5. 熟悉数据湖技术,如hudi、iceberg、deltalake等 6. 熟悉相关…
工作职责
1. 负责设计和开发DMS的统一元数据系统;包括所支持的40+种数据源的深度化研究,并将相关技术转化为产品 2. 设计与开发 DMS 数据集成、任务调度系统,提升在多模、大规模数据场景下产品技术竞争力 3. 开发和维护DMS异构数据源查询、跨数据源联合分析、湖数据分析相关功能的能力; 4. 设计和实现大规模分布式系统,深度参与计算引擎与存储引擎的联合优化; 5. 与其他团队紧密合作,包括产品、测试和运维团队,确保软件开发流程的顺利进行; 6. 参与代码审查和团队技术分享活动,提高团队技术水平。
Lindorm数据库的定位是AI时代的海量多模数据平台,目前Lindorm针对高并发在线、泛时序数据、搜索和AI几个主要业务场景提供了多模数据的存储、检索、分析与AI推理服务。如何实现针对多个不同业务场景下复杂各异数据模型的高效存储与处理,以及探索如何更好利用AI来对非结构化数据进行分析和理解,实现结构化数据与非结构化数据的融合处理,都存在巨大的挑战。如今AI技术发展迅速,我们希望能够进一步探索多模数据和AI结合的更多场景,将Lindorm数据库打造成AI应用的基础设施。 基于以上背景,本项目重点聚焦如下技术问题的研究: 1、探索如何在一个统一的数据库框架和底座下高效存储和处理包括宽表、时序、JSON、向量等复杂数据模型; 2、探索数据库如何更好地利用Data + AI来增强数据库分析和处理文本、图像、语音和视频等非结构化数据的能力,方便用户开发和部署AI应用,挖掘数据价值。
1.负责1688与全网多模异构数据的信息抽取、对齐挖掘能力,提升商家选品Agent的需求感知能力 2.负责需求预测大模型训练优化,提升选品Agent的决策与规划能力 3.负责商家商品运营决策AIGA模型训练优化,包括商品优化、AI定价、营销决策等,提升商品运营Agent的商家生意效果 4.负责商品改款AIGC生成模型与商品理解多模态模型的训练优化 5.负责探索商品运营multi agent强化训练算法开发,通过商品多Agent协同决策持续提升商家经营效果 6.负责商家侧的客户画像、采购需求与复购周期预测,帮助商家高效运营买家 7.负责客户运营侧基于买家需求的AIGC营销内容优化,通过微信、小红书、站内信、外呼等多端渠道帮助商家持续激活买家复购
致力于构建高质量的大规模视觉训练数据集,支持图像、视频等多模态模型的研发。主导数据基础设施的设计与优化,确保数据具备良好的质量、多样性与可扩展性。 1. 开发并维护可扩展的数据基础设施,支持大规模图像和视频数据的采集、存储与管理; 2. 应用并部署机器学习模型用于数据清洗、预处理与格式标准化; 3. 实现可扩展且高效的工具,用于可视化、聚类以及深度理解数据; 4. 优化和并行化数据处理流程,以高效处理上亿级别的数据集; 5. 评估并提升训练数据的质量、多样性及标注准确性(包括但不限于caption生成); 6. 与模型研发团队紧密协作,根据训练效果和模型反馈持续迭代数据策略。