腾讯腾讯云-数据湖存储后台开发工程师-元数据加速方向
任职要求
1.本科及以上学历,5年以上相关工作经验; 2.精通分布式存储,在读写性能调优上和分布式系统稳定性加强有丰富经验; 3.对KV存储有较深的实战经验,善于调优KV存储性能和稳定性; 4.理解Hadoop和对象存储,有过对象存储研发经验或者运行最佳实践操作经验; 5.精通Java或者C++,和面向对象编程; 6.熟练掌握常用数据结构与算法,具备多线程编程和网络编程的高级技能; 7.具有优秀的学习能力、沟通能力、服务意识和团队合作精神; 8.强烈的责任心和主动性,对工作有强烈的所有权意识,并能自我激励以实现个人和团队成长; 9.具备良好的系统分析能力,良好的抽象思维和逻辑思维能力,独立分析问题解决问题的能力; 10.以下经验者优先: 具有大型KV系统,Hadoop系统开发经验优先; 具有Hadoop和分布式文件系统开发经验优先。 加分项 1.在同等条件下,通过腾讯云认证或取得同等资格认证的候选人,我们会优先考虑。
工作职责
1.负责腾讯云对象存储分布式缓存类产品研发工作; 2.参与大数据存储、AI存储等新兴领域的存储设计和分析工作; 3.参与元数据管理和KV Engine的优化和调优; 4.对于Hadoop、POSIX和S3协议进行优化。
1.负责业务数据研发相关工作,对数据进行整合、清洗、存储形成数据资产满足业务实时离线各种场景的业务需求; 2.负责业务主题离线、实时、湖仓一体设计与研发构建,专项推动其数据应用的高可用、高质量和安全可靠; 3.负责参与数据架构的设计与优化,提升系统性能和稳定性; 4.与产品团队紧密协作,理解业务需求,提供数据支持,推动数据驱动的产品改进; 5.制定和优化数据开发规范和流程,提高团队工作效率和质量; 6.跟踪业界最新技术和动态,将其应用到实际项目中,提升产品竞争力。
1、负责商业增值的算法工程相关工作,建设机器学习Pipeline,提升算法迭代效率,统一机器学习的开发和部署,以标准化过程生产高性能模型,持续交付; 2、负责在线推理的优化工作,建设CPU+GPU的异构架构,解决大规模模型推理等问题,并能跟随模型的迭代持续进行编译优化,提升优化的普适性以及对新硬件的覆盖能力; 3、负责特征平台的优化升级工作,提升数据生产效率,实现算法场景下数据价值加速流通和赋能提效,并优化在线特征读取性能,且能前瞻性的看到新技术,结合实际场景预判引入; 4、负责算法迭代日常需求沟通,支撑算法生命周期的全链路迭代,理解算法需求的同时可以通用化的进行抽象,提升平台能力面对相似场景的复用性。 5、负责LLM推理引擎优化,基于业界先进经验设计开发及优化LLM推理框架。 6、负责高性能算子开发和优化,针对Transformer等结构,通过指令级、内存访问优化等手段,提升算子性能,充分利用硬件能力。 7、负责跟随业界LLM新技术,并赋能到业务中。
1.负责大数据平台的架构设计、开发和优化。优化计算引擎性能,对分布式存储做访问加速优化; 2.能深入分析和优化湖仓计算引擎查询性能,包括动态连接重排序、动态分区剪枝、自动处理数据倾斜和动态优化等; 3.负责分布式存储系统的管理和优化,提升数据访问性能,特别是在存算分离场景下的数据读写访问优化与加速; 4.提高大数据作业的调度和执行效率,包括对Apache Iceberg、Apache Hudi等湖仓关键技术的深入应用和优化; 5.在持续优化系统性能的同时,能确保系统的高可用性和稳定性。
随着数据量的爆炸性增长以及业务复杂性的增加,诸如图、文档、时空、时序等非结构化数据类型规模和价值都越发重要。需要研究更有效率的非结构化数据的处理、存储、分析的技术,尤其是与结构化数据融合进行分析的手段,将来自不同来源、格式、结构或模型的数据整合到一个统一的系统中,以实现数据共享、分析和决策支持。 我们的研究内容包括: 1. GPU加速的多模态数据处理,如fts、向量检索以及索引建立。GPU高效池化以及远程GPU调用,查询算子以及后台数据重整任务的高效远程GPU卸载; 2. 非结构化数据,如json、文档等自动语义发现与解析、数据模式匹配与语义对齐、对象关联分析。结合NLP等技术,实现从原始数据到结构化语义的高效转化; 3. OLTP高效入湖。结合数据湖的灵活性(存储非结构化数据)与数据仓库的结构化管理能力(如ACID、事务支持、元数据管理),通过存储层创新、计算引擎优化和云原生技术,实现不同业务的高效协同。