哔哩哔哩商业化算法数据架构师
任职要求
1、熟悉Iceberg、Hudi等数据湖技术,有成功实施iceberg项目,特别是使用Iceberg进行大规模数据处理和优化的实际案例优先。 2、有推荐架构、搜索架构、算法模型相关经验的优先 3、熟练掌握至少一种编程语言(如Python、Java、C++)。 4、计算机科学、数学、统计学或相关领域本科及以上学历。 5、精通大数据处理技术和框架,如Flink、Spark、kafka等。
工作职责
1、设计并优化数据架构:根据业务需求,设计并实施高效、可扩展的数据架构,确保数据的高可用性、安全性和一致性,特别是在特征样本管理和分析方面。 2、Iceberg技术应用:深入理解和应用Apache Iceberg等数据湖技术,优化数据存储、查询性能,提升数据处理效率。 3、特征工程与管理:构建和维护特征样本库,包括特征提取、选择、转换和存储策略,确保特征的高质量和可用性,支持机器学习模型的训练和预测。 4、数据流设计:设计并实现高效的数据采集、清洗、转换和加载流程,利用Flink、Spark、Kafka等大数据技术构建实时或批量数据处理。 5、性能调优与监控:持续优化数据处理性能,实施有效的监控和报警机制,确保数据处理的稳定性和时效性。 6、技术选型与创新:评估新技术、工具和框架在特征样本处理和数据架构中的应用潜力,推动技术创新和升级。 7、团队协作与指导:与数据科学家、工程师和产品团队紧密合作,提供技术支持和解决方案,指导团队成员在数据架构和特征工程方面的最佳实践。
1、负责小米国际商业化每日百亿流量的广告在线预估请求,对模型预估链路、模型特征工程链路进行设计与优化; 2、负责优化在线预估相关系统的性能,提升系统稳定性和扩展性,构建支出高并发、高可用、低延迟的系统架构; 3、负责对各专项技术调研、新技术引入等攻坚工作,通过推理框架的能力迭代及性能的优化,支撑更多样的模型结构,更大参数规模的模型在业务场景的应用落地,持续地迭代系统; 4、负责指导团队成员工作,带领初工程师完成项目目标;
1、为抖音集团广告算法模型的流式训练、批式训练、生成式训练提供数据支持(用户行为序列/用户行为表征/候选标的表征); 2、针对广告业务全链路的数据需求,从数据全生命周期视角设计并实现高性能、高可用、低延迟的数据生产/加工/存储/消费为一体的通用解决方案; 3、参与探索内容理解能力、复杂前沿模型在广告业务中的应用与架构平台化,构建并优化商业化商品解决方案; 4、负责建设数据平台与架构,针对不同类型的数据制定研发标准和规范,支持各类数据的探查和发现,支持海量业务需求,保障业务的可持续迭代。
1.主导大数据和AI产品解决方案的开发和标准化工作,负责产品从售前到交付的全流程解决方案支撑; 2.熟悉并了解行业典型大数据&AI方案,提炼行业大数据&AI典型产品场景,总结并推广行业打法和解决方案; 3. 基于阿里云大数据&AI产品能力,协助客户进行产品部署与实施,通过不同大数据行业解决方案解决客户大数据场景中遇到的问题; 4.负责输出整体解决方案架构设计文档,管理总体技术方案的变更,并根据运营中发现的客户需求设计新方案; 5.与业务及产研、交付团队共同推进标杆客户,并且作为产品解决方案的竞争力负责人,能够影响业内公司的关键决策; 6.赋能与支持阿里云的业务团队拿下市场份额,并且对产品的增长负责; 7.识别和反馈行业共性需求,推动云产品大数据&AI能力提升,打造业内有竞争力的大数据&AI产品 。