百度搜索内容算法工程师(J81394)
任职要求
-研究生以上学历,搜索业务经验1年及以上者优先 -熟悉自然语言处理、机器学习、模式识别等常用算法,对自然语言处理方向有深入实践者优先 -熟练掌握C/C++/Python等语言,了解paddle、pytorch、tensorflow等常用深度学习工具,熟悉常用数据结构及算法 -具备良好的学习能力,能够跟进领域内最新技术研究成果,并结合应用场景快速实验和调优 -优秀的分析问题和解决问题的能力,对解决具有挑战性问题充满激情 -具备良好的团队合作精神和沟通意识
工作职责
加入业界领先的内容理解团队,参与中文最大的索引筛选系统的核心技术研发工作;主要负责全网海量内容理解和筛选,优化收录资源质量,提升索引效率,从而提升搜索产品体验;具体方向包括但不限于: -面向全网异构内容,持续协同完善搜索价值标准,建设优质、低质、作弊、AIGC识别等完整内容价值体系,从收录到索引全链路控制质量准入,提升效率,牵引生态,同时守好搜索基础体验门槛; -在价值理解基础之上,进一步构建领域类型、地域类型等精细化理解体系,支撑基础体验、极致满足等多个业务,助力搜索体验和规模增长; -构建融合链接、文本、视频等不同载体的内容关系系统,基于多页面的关系聚簇技术,刻画知识传播与溯源关系,控制搜索无效重复,强化搜索权威可信与原创感知; -基于全网异构内容理解技术体系,建设融合需求、质量、权威、时鲜等的多目标索引筛选技术,在考虑价值、去重及热度基础之上,兼顾稀缺性,不断追求索引成本与检索效果平衡下的极致效率。
面向AI内容创作场景,负责内容搜索与推荐系统的算法设计、优化及落地,通过精准的算法策略提升内容分发效率与用户体验,支撑AI生成内容(AIGC)、创作者生态等核心业务的增长。 岗位职责: 1.算法设计与优化:负责AI内容创作场景下推荐算法与搜索算法的研发迭代,包括但不限于召回、排序、过滤、个性化推荐等模块,优化内容匹配精准度与用户点击率、停留时长等核心指标。 2.数据驱动迭代:基于用户行为数据、内容特征数据等,构建算法评估体系,通过AB测试等方式验证算法效果,持续迭代优化推荐策略,解决冷启动、多样性不足等实际业务问题。 3.特征工程与模型搭建:参与内容特征、用户特征的挖掘与构建,结合场景需求选择或改进合适的推荐模型(如协同过滤、深度学习模型等),提升模型预测精度与泛化能力。 4.系统协同与落地:与工程、产品、数据等团队协作,将算法方案转化为可落地的技术实现,保障推荐系统的高可用性、低延迟与稳定性,适配AI内容创作场景的动态变化需求。 5.技术探索与沉淀:跟踪推荐算法、AI大模型在内容领域的应用动态,探索大模型与推荐系统结合的创新方向(如生成式推荐、意图理解增强等),沉淀算法研发经验与技术方案。
1、负责在掘金社区业务中,构建业界领先的技术内容搜索和个性化推荐系统; 2、打造智能的技术内容理解和匹配系统,提升内容分发效率; 3、构建用户兴趣画像和内容特征模型,实现精准的个性化推荐; 4、优化搜索召回和排序算法,提升技术文章的搜索准确度和时效性; 5、探索前沿的NLP/推荐算法在技术社区场景的创新应用。
1.负责知乎的算法工作,共同搭建业界领先的算法系体系,为用户提供一流的产品体验; 2.基于知乎海量优质内容,负责各个业务场景(推荐、搜索、广告、会员、教育、增长)的算法策略和机器算法; 3.对文本与日志进行数据挖掘和分析,为知乎算法的改进提供数据和算法支持; 4.深度学习等算法在推荐系统的实验和落地应用; 5.和产品、运营团队紧密合作,通过对产品和用户的深入理解和分析,促进知乎生态的长期繁荣发展。
团队介绍:抖音内容理解团队负责抖音集团内容算法工作,业务覆盖抖音、今日头条、西瓜视频、剪映等业务,承接业务在内容理解、LLM应用、新业务方向探索等方向的工作。技术上涵盖了CV,NLP,音频,LLM等算法方向。团队承载业务需求同时还负责底层基础算法技术,负责为抖音各个技术方向提供长期有深度的技术支撑,推动如基础预训练模型、视频生成等基础技术研究等工作,并产出了较多的学术论文、技术报告、开源能力等工作。得益于抖音集团业务数量庞大的多模态业务数据和业务需求,团队能够有资源和机会去做出行业领先的技术创新,用最新的技术去改变影响用户和改变行业格局。 1、研究方向:提升视频、音频、图像、文本及多模态的大模型基础能力,在业务领域与通用领域取得行业领先的效果,建设体系化的模型能力提升方法论;探索理解大模型与生成大模型能力结合互补模式,探索并落地一体化模型并取得更高的模型效果;推动多模态内容理解能力在搜索、推荐、广告等场景的落地应用; 2、负责抖音、直播、今日头条等业务场景下的开集内容理解工作,建设多模态大模型、生成式模型等前沿模型技术能力,接近人类感知认知模型能力,产出相应的研究成果; 3、负责抖音等业务场景通用多模态大模型的模型训练和基础建设,包括但不限于模型训练、数据工程、训练推理框架迭代、维护模型评估指标体系; 4、跟进行业最新技术进展,探索多模态方向的新技术研究与落地。