
同花顺大模型搜索算法工程师
任职要求
LLM Rerank方向*2 (1)在LLM SFT/LLM rerank/语义相关性/语义召回有丰富的实操经验,有足够的业务sense; (2)熟悉向量检索、表征学习、LLM等相关算法,并有自己的思考和判断; (3)综合素质高,能够有效判断排序专项的关键问题和关键解法并推动落地。 综合质量*1 (1)在质量模型或质量体系的建设上有丰富的实操经验,有足够的业务sense; (2)熟悉MLLM、LLM等相关算法,并有自己的思考和判断; (3)综合素质高,能够有效判断质量专项的关键问题和关键解法并推动落地; 爬虫算法*1 (1)熟悉爬虫算法,包括但不限于:新链发现、链接选取等,有丰富的经验; (2)熟悉MLLM、LLM等相关算法,并有自己的思考和判断; (3)对数据有足够的的敏感性,能够结合业务判断数据需求并设计方案落地。
工作职责
LLM Rerank方向*2 (1)支撑AI搜索产品算法效果&能力升级,支撑搜索+LLM产品的落地; (2)结合大模型提升重排、相关性和召回效果,提升搜索增强(RAG)、搜索业务的多维度相关性; (3)针对业务问题进行有效的问题拆解,组织工程、架构、数据方向解决问题; (4)参与和支撑LLM与搜索结合的相关项目,如:AI搜索、智能摘要、AIGC等。 综合数据质量*1 (1)支撑AI搜索产品算法效果&能力升级,支撑搜索+LLM产品的落地; (2)负责综合质量分模型、基于MLLM、LLM等模型搭建成熟的数据质量能力,提升搜索增强(RAG)、搜索业务的结果质量; (3)与工程、架构合作搭建成熟的离线特征计算、内容理解链路。 爬虫算法*1 (1)支撑AI搜索产品算法效果&能力升级,支撑搜索+LLM产品的落地; (2)负责爬虫相关算法、通过建设新链发现、链接选取、爬虫调度等算法提升数据的获取效率、时效等,提升搜索增强(RAG)、搜索业务的结果全面性和实时性; (3)与爬虫合作搭建成熟的爬虫平台、提升业务支撑能力; (4)支撑智能AI爬虫项目的算法能力建设,包括:web agent、智能爬虫插件等。
1.负责新一代AI搜索的算法研发工作,基于大模型对搜索系统进行技术升级和并探索下一代算法架构新范式 2.在搜索问答场景下,通过优化模型提升RAG链路中信息召回的准确性 3.通过大模型预训练、SFT、RLHF等,提升大模型在搜索文档场景下的效果 4.参与大模型在搜索、智能问答等场景中的落地研发 5.与团队成员协作,共同推进项目进展,保证开发任务的高效完成
团队介绍:字节跳动搜索团队主要负责抖音、今日头条、西瓜视频等产品的搜索算法创新和架构研发工作。我们使用最前沿的机器学习技术进行端到端建模并不断创新突破,同时专注于分布式系统、机器学习系统的构建和性能优化,从内存、Disk等优化到索引压缩、召回、排序等算法的探索,充分给同学们提供成长自我的机会。主要工作方向包括:1)探索最前沿的NLP技术:从基础的分词、NER,到应用上的Query分析、基础相关性等,全链路应用深度学习模型,每个细节都充满挑战;2)探索跨模态匹配技术:在搜索中应用CV+NLP深度学习技术,让视频搜索拥有更强大的检索能力;3)探索大规模流式机器学习技术:应用大规模机器学习,解决搜索中的推荐问题,让搜索更加个性化更加懂你;4)探索千亿级数据规模的架构:从大规模离线计算,分布式系统的性能、调度优化,到构建高可用、高吞吐和低延迟的在线服务,方方面面都进行深入研究和创新。 1、探索搜索引擎与大模型、LLM、MLLM、多模态、机器学习、强化学习等前沿技术的结合,实现搜索引擎全链路革新并进行极致的系统优化,探索提升AI搜索引擎的能力,包含而不限于相关性、权威性、时效性、意图理解能力等;探索LLM适性索引、LLM相关性、生成式召回、排序大模型等; 2、构建大规模高质量数据(数据建设、数据抓取与解析、数据合成等)、训练和优化AI搜索的机器学习模型(多模态内容理解、指令微调、索引筛选、Query分析、Scalable Oversight、Long CoT、模型推理/规划、模型优化、构建全面客观准确的评测体系等); 3、探索推进AI搜索、AIGC创新应用的落地(包含而不限于豆包、电商、抖音、智能硬件、AI找搭配/虚拟穿搭等大模型应用场景),研发以人工智能技术为核心的新技术、新产品,探索满足用户的智能交互需求,提升现实与物理世界的交互能力。
1、支持快速增长的内容套件搜索业务,为用户提供精准的搜索体验; 2、为内容插件提供搜索能力,为大模型场景提供精准内容输出; 3、不断创新,探索大模型技术在搜索中的应用。
团队介绍:字节跳动搜索团队主要负责抖音、今日头条、西瓜视频等产品的搜索算法创新和架构研发工作。我们使用最前沿的机器学习技术进行端到端建模并不断创新突破,同时专注于分布式系统、机器学习系统的构建和性能优化,从内存、Disk等优化到索引压缩、召回、排序等算法的探索,充分给同学们提供成长自我的机会。主要工作方向包括:1)探索最前沿的NLP技术:从基础的分词、NER,到应用上的Query分析、基础相关性等,全链路应用深度学习模型,每个细节都充满挑战;2)探索跨模态匹配技术:在搜索中应用CV+NLP深度学习技术,让视频搜索拥有更强大的检索能力;3)探索大规模流式机器学习技术:应用大规模机器学习,解决搜索中的推荐问题,让搜索更加个性化更加懂你;4)探索千亿级数据规模的架构:从大规模离线计算,分布式系统的性能、调度优化,到构建高可用、高吞吐和低延迟的在线服务,方方面面都进行深入研究和创新。 1、探索搜索引擎与大模型、LLM、MLLM、多模态、机器学习、强化学习等前沿技术的结合,实现搜索引擎全链路革新并进行极致的系统优化,探索提升AI搜索引擎的能力,包含而不限于相关性、权威性、时效性、意图理解能力等;探索LLM适性索引、LLM相关性、生成式召回、排序大模型等; 2、构建大规模高质量数据(数据建设、数据抓取与解析、数据合成等)、训练和优化AI搜索的机器学习模型(多模态内容理解、指令微调、索引筛选、Query分析、Scalable Oversight、Long CoT、模型推理/规划、模型优化、构建全面客观准确的评测体系等); 3、探索推进AI搜索、AIGC创新应用的落地(包含而不限于豆包、电商、抖音、智能硬件、AI找搭配/虚拟穿搭等大模型应用场景),研发以人工智能技术为核心的新技术、新产品,探索满足用户的智能交互需求,提升现实与物理世界的交互能力。