字节跳动【实习】基于预训练大模型的端到端生成式搜索技术研究-搜索(北京/上海/杭州)
任职要求
1、2027届及以后毕业,博士在读,人工智能、计算机、自然语言处理、计算机视觉等相关专业优先; 2、在人工智能领域顶级会议上有发表论文或有深入研究经历者优先; 3、…
工作职责
团队介绍:字节跳动搜索团队主要负责抖音、国际化短视频、今日头条、红果短剧、番茄小说、AI搜索等产品以及电商、生活服务等业务的搜索算法创新和架构研发工作。 我们使用前沿的机器学习\大模型技术进行端到端建模并不断创新突破,同时专注于分布式系统、机器学习系统的构建和性能优化,从内存、Disk等优化到索引压缩、召回、排序等算法的探索,致力于支撑字节跳动持续多元化的产品创新和高速的业务增长、基于大模型革新和重塑下一代搜索技术体系,充分给同学们提供成长自我的机会。 主要工作方向包括: 1、探索前沿的NLP技术:全面基于LLM的Query分析、相关性、个性化预估、满意度评估、生成式检索等,全链路应用LLM/VLM,每个细节都充满挑战; 2、跨模态匹配技术:进行多模态预训练,在超大规模的多模态表征、匹配、生成等多个技术方向上持续突破,打造世界领先的多模态搜索系统; 3、大规模流式机器学习技术:应用大规模机器学习,解决搜索中的推荐问题,让搜索更加个性化更加懂你; 4、千亿级数据规模的架构:从大规模离线计算,分布式系统的性能、调度优化,到构建高可用、高吞吐和低延迟的在线服务的方方面面都有深入研究和创新; 5、推荐技术:基于超大规模机器学习、因果推断、大模型推理等技术手段,构建业界领先的搜索推荐系统,对搜索推荐技术进行探索和创新。 课题介绍:随着大模型技术的快速发展,AI搜索领域迎来了新的机遇和挑战。传统搜索技术在面对海量数据、多模态信息以及用户多轮复杂需求时,开始暴露出很多问题。因此需要基于大模型来构建下一代AI搜索系统,提升搜索系统的智能化水平,优化用户体验,具体目标包括: 1、探索大模型与排序算法的结合,提升个性化排序的精度和用户体验。 2、探索基于多模态预训练的端到端生成式搜索大模型 3、探索基于大模型Agent技术,提升复杂多义Query和多轮搜索下的用户满意度。 课题挑战: 1、个性化排序的挑战:传统排序算法难以充分利用多模态信息,且模型复杂度有限,无法满足用户对精准化和个性化搜索的需求; 2、超大规模检索排序的挑战:传统的基于判别式的级联排序系统,难以满足搜索千亿级别候选的检索排序效率需求; 3、搜索需求日益复杂的挑战:用户搜索需求的复杂度在不断增加,传统搜索框架难以在多轮对话下,准确理解长难、多义Query的语义,导致搜索结果满意度低。 课题价值: 1、技术价值:突破传统搜索技术瓶颈,构建大模型Agent驱动的下一代AI搜索架构,解决个性化排序、超大规模检索排序、复杂搜索需求理解满足等行业难题; 2、业务价值:大幅度提升搜索的用户体验和满意度,带动搜索场景LT和主动搜索心智的提升。
公司介绍 滴滴于 2016 年组建自动驾驶技术研发部门,致力于打造世界领先的 L4 级自动驾驶技术,通过科技让出行更安全、更高效。我们相信,将自动驾驶技术部署在共享出行车队中,将创造最大的社会价值。依托滴滴在出行领域的 先进技术、海量数据、丰富经验和完整的出行平台生态,我们正在打造并运营世界领先的自动驾驶 Robotaxi 车队,推动自动驾驶在城市复杂交通场景中的规模化落地。 职位描述 作为感知团队的一员,你将与国内外顶尖人才一起,研究和开发自动驾驶领域的前沿算法,直接赋能 L4 Robotaxi 的大规模部署。 你将面向真实城市道路场景中的多样化挑战,利用多模态传感器(LiDAR、Camera、Radar 等)设计、开发并优化感知算法,解决物体识别、障碍物检测、场景理解、意图预测与大模型赋能等核心问题。 在这里,你将有机会: 与中美两地的优秀工程师和科学家合作,参与世界级的技术竞争; 深入研究并推动最前沿的学术成果在产业中的落地; 在全球最大出行平台之一的业务场景中,实现科研成果的规模化应用。 主要方向与职责: 你将在以下方向中选定一个或多个方向深入负责,并承担从研发到落地、从算法到系统的端到端职责: (一)物体识别与跟踪 设计并实现基于 LiDAR / Camera / Radar 的多模态检测模型,识别车辆、行人、自行车、静态障碍物、交通标志等 提升精度、召回率与抗扰性(抗遮挡、夜间、恶劣天气、长尾类别) (二)通用障碍物识别 识别未知类别 /未训练类别的障碍物 基于异常检测 /开放类别识别的算法研究与工程实现 在非结构化环境(施工区域、道路损坏、落物等)中提升鲁棒性 (三)场景和意图理解 语义分割、实例分割、道路 /车道/交通标志/交通灯等结构物识别 场景理解,例如施工区域识别、可通行区域识别等 意图理解,例如行人动作识别、起步意图识别等 交互和事件识别,例如多方交互、交通规则冲突、非规范驾驶行为等 (四)感知大模型 /多模态 探索或应用预训练多模态大模型,将视觉、语言、地图/文本信息融合以增强感知能力 零样本 / 少样本 / 跨域泛化的策略研发 将大模型成果迁移到真实车队感知系统中,提升复杂场景下的鲁棒性 (五)模型评估、验证 构建完整的评估管道,包括离线评估 + 真实道路 + 模拟环境测试,支持回归检测与性能监控 指标体系设计 (Precision, Recall, IoU, latency, false positives rate 等)
本课题希望探索有效的统一大模型基座方案及提升多场景联合预训练的效果。目前公司内部不同业务场景下存在多套Embedding&标签大模型,部署成本较高,且应用在下游端到端建模任务如序列推荐时也多有不便,希望在多场景下对多套不同的Embedding&标签做整合,共用一套统一的基座模型,降低部署成本。同时通过融合的方式,对多场景数据进行综合建模,提升多场景的Embedding&标签效果。 统一基座模型需要解决的核心技术难点包括: 1、基座统一但仍可支持业务的定制微调,且训练成本和推理成本较低; 2、多体裁内容(如笔记、直播、商品、Query等)的理解可以融合在一个统一模型,且效果比独立训练更好。 研究方向会针对要解决的问题设立,包括:基于多Head或MoE的轻量化微调及融合推理、多体裁内容形式的统一建模。
研究方向一:基于生成式推荐的CTR预估新范式 该方向研究在生成式推荐架构下,如何发挥算力优势,重构当前搜推排序架构体系,实现有限资源下累计收益最大化。关键问题如下: 1.在训练、推理上发挥生成式架构算力优势:针对超长用户行为序列探索生成式架构下Scaling Law,基于美团LBS特点高效捕捉用户兴趣。 2.建设全场景生成式推荐算法:基于超大算力的生成式架构,建设多业务线统一排序算法;采用预训练+SFT、KV Cache等技术,建设多业务下统一的训练、推理服务架构。 3.全链路端到端统一建模:利用生成式架构优点统筹多阶段漏斗,彻底改变当前繁重的多阶段迭代模式,建设出既能互相协同与配合、且目标又充分一致的新算法链路。 研究方向二:面向即时零售场景的大模型驱动用户兴趣建模与场景化推荐方法研究 随着大语言模型(LLM)在自然语言处理、知识推理等领域的广泛应用,如何将其与零售业务深度融合,提升即时零售场景下的用户兴趣理解与个性化推荐水平,成为智能推荐领域的重要研究方向。本课题旨在突破传统推荐系统对用户兴趣建模的局限,充分挖掘大模型的语义理解、知识推理与泛化能力,推动零售行业智能化升级。关键问题如下: 1.探索并实现大模型与零售业务领域知识的高效融合机制,系统评估监督微调(SFT)、检索增强生成(RAG)等多种集成方案在场景化推荐中的适用性与性能表现。 2.构建面向即时零售场景的用户兴趣建模体系,利用大模型对用户行为、商品属性、场景上下文等多维数据进行深度语义建模,提升用户兴趣刻画的准确性与动态性。 3.研发场景化推荐推理框架,基于大模型的推理能力,实现对用户个性化需求的精准预测与推荐,显著提升即时零售平台的用户体验和转化效率。
1、自动驾驶多模态算法研究与应用:负责自动驾驶领域的多模态大模型技术研究及算法开发,包括视觉语言模型(VLM)、一段式端到端模型,以及多模态大模型在复杂场景下的技术整合。 2、多模态感知基础模型研究:开展文本(Text)、视觉(Vision)与点云(Point)融合的多模态感知基础模型研究,包括但不限于4D表征、推理(Reasoning)感知、规划等研究方向。 3、视觉-语言-动作(VLA)大模型研究:负责基于视觉-语言-动作(VLA)架构的端到端方案研究,包括数据生产方案、VLA模型架构、效率优化等方向设计与研发。 4、预训练模型研发:研究基于未来帧预测的预训练模型,结合端到端框架设计,探索其在自动驾驶感知、决策与控制闭环中的可行性及性能提升方向。