小红书多模基础引擎负责人-搜广推
任职要求
1. 操盘过亿级 APP 下检索存储服务架构,或主导过知名分布式系统。 2. 熟悉Ha3/RocksDB/HBase/TiDB/Cassandra/CockroachDB等开源…
工作职责
属于小红书引擎架构团队,主导面向搜推广及AI Agent应用的多模态检索引擎的研发。 1. 你可以在高速增长且闭环的业务场景内,充分挖掘大规模异构索引架构的计算效能。 2. 你可以在搜推广统一架构的基座下,探索多模态数据的检索范式,研发新一代的统一存储基座,持续突破检索天花板。 3. 如果你有行业前沿技术的视野,有挑战行活打造行业领先架构的愿力,欢迎你的加入。
-建设面向AI场景的检索引擎(多维分析、文本检索、向量检索、多模检索等) -负责计算引擎:包括但不限于SQL解析规划器,查询优化器,分布式执行研发和优化 -负责存储引擎:包括单机执行引擎,资源调度,列式存储、存算分离等模块的研发和优化 -负责各集群服务稳定性保障和客户支持
1. 负责设计和开发DMS的统一元数据系统;包括所支持的40+种数据源的深度化研究,并将相关技术转化为产品 2. 设计与开发 DMS 数据集成、任务调度系统,提升在多模、大规模数据场景下产品技术竞争力 3. 开发和维护DMS异构数据源查询、跨数据源联合分析、湖数据分析相关功能的能力; 4. 设计和实现大规模分布式系统,深度参与计算引擎与存储引擎的联合优化; 5. 与其他团队紧密合作,包括产品、测试和运维团队,确保软件开发流程的顺利进行; 6. 参与代码审查和团队技术分享活动,提高团队技术水平。
1. 负责统一数据平台的架构设计与模块开发,涵盖批处理、流处理、交互式查询与服务化计算能力,构建高效、灵活、智能的大规模数据处理基础设施。 2. 构建高效、灵活、智能的大规模数据处理基础设施,支持 PB 级的非结构化数据处理,跟踪数据技术趋势(如 Lakehouse、流批一体、云原生架构),构建高可用、易扩展的数据存储体系,支持数据湖等新型数据架构演进。
团队介绍:字节跳动抖音搜索团队主要负责抖音搜索算法创新和架构研发工作,主要包括短视频、直播、本地生活、视觉搜索等多个业务线。我们使用最前沿的机器学习技术进行端到端建模并不断创新突破,同时专注于分布式系统、机器学习系统的构建和性能优化,从内存、Disk等优化到索引压缩、召回、排序等算法的探索,充分给同学们提供成长自我的机会。主要工作方向包括:1、探索前沿的NLP技术:从基础的分词、NER,到应用上的Query分析、基础相关性等,全链路应用深度学习模型,每个细节都充满挑战;2、跨模态匹配技术:在搜索中应用CV+NLP深度学习技术,让视频搜索拥有更强大的检索能力;3、大规模流式机器学习技术:应用大规模机器学习,解决搜索中的推荐问题,让搜索更加个性化更加懂你;4、千亿级数据规模的架构:从大规模离线计算,分布式系统的性能、调度优化,到构建高可用、高吞吐和低延迟的在线服务的方方面面都有深入研究和创新。 1、参与抖音搜索的核心算法改进工作:用先进的NLP、CV、CTR预估等技术不断提高搜索结果的精度,持续提升用户的搜索体验; 2、可能的方向包括: 1)匹配技术(文本匹配和多模匹配):匹配技术是搜索引擎的核心;在抖音搜索,你将有机会应用前沿的NLP和CV技术为每一个Query匹配相关的视频,持续提升抖音搜索的相关性; 2)点击率预估:解决搜索中的推荐问题,让抖音搜索在“相关”的基础上增加个性化的能力,更懂用户; 3)视频理解:综合运用NLP、CV、图神经网络等技术,从视频本身以及社交网络的角度进行视频理解,提高搜索结果的权威性、可信度和有用性; 4)新产品形态和技术:探索智能封面、视频摘要、视频精准问答等高效便捷的交互技术。