拼多多NLP算法工程师/专家(用户增长方向)
任职要求
1、数学、计算机相关专业,本科以上学历,1年以上互联网行业经验,有电商/NLP/多模态相关算法背景优先; 2、精通NLP算法,在领域内有成熟实践经验(如文本分类/序列标注/文本特征检索/文本生成/多模态理解等); 3、熟悉至少一种深度学习工具框架(如…
工作职责
1、负责NLP技术在商品内容理解算法和跨模态分析中的应用; 2、负责分析、挖掘电商场景中的多语种多类型文本数据,包括但不限于商品的标题、sku、描述、属性等,构建全面的商品属性体系; 3、负责内部NLP基础能力的建设和维护,包括但不限于实体识别、语义理解、多模态理解、文本生成等。
团队介绍 AE搜索算法团队,负责AIDC AliExpress(AE)、JP- AO和天猫淘宝海外等国际化电商搜索业务优化,为全球100多个国家使用不用语言的用户持续电商搜索体验与效率,并结合大模型升级技术与产品体验创新。 多年来团队紧跟工业界和学术界前沿,在多语言Query理解与相关性、国家差异化召回与排序模型、多语言Query导购与大模型在多语言搜索中应用等技术方向持续探索创新,带来业务快速增长同时发表⾼⽔平学术论⽂20+篇(如AAAI、 IJCAI、TKDE、TMM、RecSys、CIKM和ICDM),申请专利15+项。 职位描述 1. 多语言 Query 理解、商品理解和相关性,包括:Query和商品NER、Query类目预测、Query改写与扩展、多语言&跨语言语义相关性等;LLM在多语言电商搜索领域应用,包括:大模型 CT 和 SFT,以及在Query理解、语义相关性、商品理解上的应用; 2. 个性化召回与排序相关技术:基于大规模深度模型的CTR/CVR预估模型及个性化召回模型,包括用户行为序列建模、多目标建模、多模态跨场景迁移建模、国家差异化建模体系建设等; 3. 个性化多语言Query推荐,包括:下拉、底纹、风向标等场域,基于异构行为序列建模、多场景建模的多语言Query推荐技术研究与应用;
团队介绍:字节跳动搜索团队主要负责抖音、今日头条、西瓜视频等产品的搜索算法创新和架构研发工作。我们使用最前沿的机器学习技术进行端到端建模并不断创新突破,同时专注于分布式系统、机器学习系统的构建和性能优化,从内存、Disk等优化到索引压缩、召回、排序等算法的探索,充分给同学们提供成长自我的机会。主要工作方向包括:1)探索最前沿的NLP技术:从基础的分词、NER,到应用上的Query分析、基础相关性等,全链路应用深度学习模型,每个细节都充满挑战;2)探索跨模态匹配技术:在搜索中应用CV+NLP深度学习技术,让视频搜索拥有更强大的检索能力;3)探索大规模流式机器学习技术:应用大规模机器学习,解决搜索中的推荐问题,让搜索更加个性化更加懂你;4)探索千亿级数据规模的架构:从大规模离线计算,分布式系统的性能、调度优化,到构建高可用、高吞吐和低延迟的在线服务,方方面面都进行深入研究和创新。 1、参与搜索引擎研发,探索搜索全链路(分析、召回、粗排、精排、混排)的个性化行为建模,包括CTR、CVR预估、向量召回、价值混排、RAG、NLP、LLM、多模态、机器学习、深度学习等,推动搜索算法在国际化电商场景的落地与提升,提升亿级用户搜索体验; 2、参与国际化电商搜索算法的优化与迭代,提升转化效率、用户体验和供给生态;解决多语言相关性匹配、权威性感知、种草内容理解、重复铺货、山寨假货治理等技术难题,极致优化内容电商、传统货架电商等多种电商业务形态的基础搜索质量;极致提升商品、种草视频和带货直播的购物转化效率,促进GMV增长; 3、深入参与核心搜索产品的需求设计,负责算法和工程的高质量交付,持续优化效果提升产品体验; 4、挖掘数据,构建Query理解、召回、排序等模型,提升电商搜索算法能力; 5、学习前沿技术,探索大模型等创新技术在AI搜索场景的落地。
1、负责各业务电话销售/智能客服的算法研发与优化,支撑支付、消金、保险各业务的快速增长,提升用户体验; 2、负责NLP相关的数据挖掘,包括内容理解、情感/舆情分析等算法方向,支持业务增长,推动产品改进。
团队介绍:Data-电商-智能对话团队,致力于打造业界领先的大模型对话系统。团队服务的日活用户超过数亿,应用场景覆盖抖音电商全链路,包括平台客服、平台商服、商家客服、达人客服,以及创新的智能导购等核心业务场景,通过持续的技术创新和优化,成功构建了一套完整的智能对话解决方案,为电商业务带来了显著的效率提升和用户体验改善。 课题介绍: 背景:电商智能客服正逐渐成为业务增长和用户体验优化的重要方向,基于大型语言模型(LLM)的智能客服系统解决电商场景中的核心挑战,由LLM完成一次用户进线的完整接待过程,包括诉求澄清、方案协商、方案执行等阶段,实现电商业务的智能化升级——让用户享受更智能高效的客服服务。 研究方向:本课题聚焦于LLM 后训练与智能客服。构建基于 LLM 的多智能体(Multi-Agent)框架,通过规划、回复、工具三类Agent的协作,实现从问题分析、方案执行到结果反馈的全流程智能客服。核心目标是确保客服对话的准确性、合规性与流畅度,避免模型生成幻觉或违背平台政策。同时,围绕电商客服的复杂任务,构建 Benchmark数据集,优化SOP遵循、多轮交互、用户满意度等指标。此外,研究高效数据利用方法,探索低标注数据条件下的LLM训练,并开发自动生成高质量训练数据的系统,以降低人工标注成本,提高智能客服的服务质量与效率。 1、开发AI驱动的智能客服系统:设计并实现AI对话式客服助手,能够处理电商咨询、投诉、退款、争议解决及物流相关问题,以AI替代传统人工客服; 2、大语言模型(LLM)后训练与高效学习:应用最前沿的LLM训练优化技术,如指令微调、强化学习、持续学习等,在最少标注数据的情况下优化AI客服响应质量;具备大语言模型(LLM)微调、知识蒸馏或强化学习的相关经验,应用于对话式AI场景;深入理解检索增强生成(RAG)、专家混合模型(MoE)、稀疏注意力、强化学习、推理时间优化等技术,以提升AI对话质量; 3、基准测试与训练数据构建:识别具有挑战性的客服交互场景,如政策解读、争议处理、客户投诉、导购推荐等,并构建专门的测试集和训练集; 4、多语言与跨文化客服支持:构建能够适应多语言和不同文化背景的AI模型,确保客服交互的精准翻译和针对不同用户群体的合适响应;精通多语言自然语言处理(NLP)、机器翻译及跨语言对话建模; 5、模型优化与高效部署:研究模型压缩、量化、推理优化等技术,确保AI客服助手在大规模应用场景下具备低延迟、高可靠性的表现。