夸克智能信息-夸克-AI搜索算法专家-搜索创新
任职要求
1、计算机、数学或统计学相关专业硕士及以上学历,在信息检索、自然语言处理、大规模预训练模型领域有相关工作经验 2、在自然语言理解、深度学习等领域有较深入的研究,熟练使用pytorch/tensorflow等至少一种主流深度学习框架,能够独立实现前沿模型 3、具备良好的逻辑思维能力、沟通协作能力、自我学习能力,保持对事物的好奇心 4、有一定的代码能力,能够在架构同学的支持下做简单的流程搭建的同学优化 5、对大模型(LLM)、模型蒸馏/窃取 有深入理解和实践,有预训练、可控内容生成方向经验者优先,有相关顶会发表经验者(ACL/EMNLP/CVPR/ICCV/NeurIPS等)优先
工作职责
1、基于海量用户行为数据以及人工标注数据,结合信息检索、自然语言处理、大规模预训练模型等前沿技术,支持 通用RAG检索、垂直场景下的智能AI问答 等一系列业务 2、研究方向包括但不限于信息检索、大规模预训练技术、文本生成、模型蒸馏/窃取、强化学习等
团队介绍:字节跳动搜索团队主要负责抖音、国际化短视频、今日头条、西瓜视频等产品以及电商、生活服务等业务的搜索算法创新和架构研发工作。我们使用前沿的机器学习技术进行端到端建模并不断创新突破,同时专注于分布式系统、机器学习系统的构建和性能优化,从内存、Disk等优化到索引压缩、召回、排序等算法的探索,充分给同学们提供成长自我的机会。 1、探索前沿的NLP技术:从基础的分词、NER,文本、多模态预训练,到业务上的Query分析、基础相关性等,全链路应用深度学习模型,每个细节都充满挑战; 2、跨模态匹配技术:在搜索中应用CV+NLP深度学习技术,实现多模态视频搜索强大的语义理解和检索能力; 3、大规模流式机器学习技术:应用大规模机器学习,解决搜索中的推荐问题,让搜索更加个性化更加懂你; 4、千亿级数据规模的架构:从大规模离线计算,分布式系统的性能、调度优化,到构建高可用、高吞吐和低延迟的在线服务的方方面面都有深入研究和创新; 5、推荐技术:基于超大规模机器学习技术,构建业界领先的搜索推荐系统,对搜索推荐技术进行探索和创新。
团队介绍:字节跳动抖音搜索团队主要负责抖音搜索算法创新和架构研发工作,主要包括短视频、直播、本地生活、视觉搜索等多个业务线。我们使用最前沿的机器学习技术进行端到端建模并不断创新突破,同时专注于分布式系统、机器学习系统的构建和性能优化,从内存、Disk等优化到索引压缩、召回、排序等算法的探索,充分给同学们提供成长自我的机会。主要工作方向包括:1、探索前沿的NLP技术:从基础的分词、NER,到应用上的Query分析、基础相关性等,全链路应用深度学习模型,每个细节都充满挑战;2、跨模态匹配技术:在搜索中应用CV+NLP深度学习技术,让视频搜索拥有更强大的检索能力;3、大规模流式机器学习技术:应用大规模机器学习,解决搜索中的推荐问题,让搜索更加个性化更加懂你;4、千亿级数据规模的架构:从大规模离线计算,分布式系统的性能、调度优化,到构建高可用、高吞吐和低延迟的在线服务的方方面面都有深入研究和创新。 1、参与抖音,今日头条,西瓜视频,剪映等App,以及国内电商,生活服务等重点业务的搜索推荐模型和策略改进,负责这些业务的搜索流量和用户渗透增长&搜索心智建设任务; 2、以推荐算法为核心技术栈,改进基于超大规模机器学习模型的推荐系统,覆盖从候选挖掘到召回,粗排,精排,多目标融合全链路技术环节; 3、探索短文本推荐和通用推荐技术的上限,重点是推荐和NLP技术的联合应用,以及多模态等前沿技术的探索。
1、负责国际化短视频具体业务场景的搜索等算法工作,深度理解业务,攻克解决策略问题; 2、负责与产品运营团队对接协作,在本地生活等垂类、大模型应用等创新方向持续优化算法,支持业务目标达成; 3、负责前沿技术创新驱动与业务深度结合与应用,包括但不限于内容理解/信息抽取/多模态/大模型/文本生成/检索与相关性等领域; 4、负责搜索业务策略方向的中长期规划工作,包括技术演进、业务支撑、团队成长等方向。
1. 搜索召回算法:基于多模态&LLM大模型等能力,设计和优化1688搜索召回模块;负责文本query理解和改写;设计和优化分人群的多路召回差异化协同机制,并建立召回迭代的评价指标; 2. 搜索排序算法:设计和优化1688搜索排序下的转化率精准预估任务;深入研究全域用户行为建模、全域迁移学习任务、多模态技术方向在排序的应用;设计和优化1688搜索排序框架,围绕长期用户价值对1688排序模型的目标进行设计和优化; 3. 搜索流量机制:负责1688搜索机制策略创新和优化,包括商业化机制策略和用户增长策略的方案设计和落地; 4. 搜索基础算法:在1688搜索样本和数据特征上进行精细化处理,提升模型效果的上限。