小红书多模态大模型算法实习生-交易安全
任职要求
1. 熟练掌握深度学习、机器学习、自然语言处理或计算机视觉的基础知识,熟悉常用模型的原理、特点及应用,能够结合需要解决的问题选择适当的模型,并设计合理的技术方案; 2. 良好的科研能力,有成果发表在包括但不限于CVPR, ICCV, ECCV, NeurIPS, ICML, ICLR, AAAI, IJCAI, ACMMM, TIP, TPAMI, IJCV,ACL、EMNLP、NAACL、COLING、CoNLL、NLPCC等等国际顶级会议、期刊者优先;有大规模语言模型(LLMs)方面经验者优先; 3. 动手实现能力强,代码基本功扎实,精通基于Python的算法开发;熟练掌握pytorch/tensorflow/mxnet等至少一项深度学习框架。 4.较强的业务问题到算法模型的建模能力,有强烈的求知欲、自驱力和进取心,能及时关注和学习业界最佳实践 5. 可以保证3个月以上的实习
工作职责
1、拥抱大模型技术,改进当前内容理解和用户行为理解技术的范式,应用到小红书电商风控&治理场景来解决实际业务问题; 2、进行大模型前沿技术探索和研发,发表国际顶级论文 3、参与大模型相关的业务落地,包括但不限于直播图文信息抽取、文本&用户行为理解、视频结构化、消费者和商家画像、信息抽取、智能摘要、意图理解等;
日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:Data-电商团队,负责电商创新项目的算法和大数据工作。依托于字节跳动产品,帮助用户发现并获得好物,享受美好生活。在这个团队,我们不仅要通过推荐和搜索算法帮助用户买到感兴趣的好东西,也要通过风控算法和智能平台治理算法去甄别违规行为,保护用户的购物体验;我们还要建设智能客服技术、大规模商品知识图谱来提升各个交易环节的效率;我们也要结合机器学习和运筹算法,来优化供应链和物流的效率和成本,并进一步提升用户体验;另外我们还会用人工智能来帮助商家提升经营能力。我们的使命:没有难卖的优价好物,让美好生活触手可得。 1、参与电商场景下文本、多模态相关模型能力建设,包括但不限于:大模型多模态、关键信息抽取、实体识别、文本分类、知识图谱构建等; 2、参与构建业内领先的内容安全、内容生态识别方法,探索前沿技术(如NLP大模型、多模态大模型的训练和运用相关),并应用落地到电商业务场景中; 3、参与分析模型落地对电商生态的正面影响。
团队介绍:风控研发团队致力于解决各个产品(包括抖音、头条等)面临的各种黑灰产对抗问题,涵盖内容、交易、流量、账号等多个方面的风险治理领域。利用机器学习、多模态、大模型等技术对用户行为、内容进行理解从而识别潜在的风险和问题。不断深入理解业务和用户行为,进行模型和算法创新,打造业界领先的风控算法体系。 课题介绍: 1、课题目标:以风控数据为基础,优化提高大模型对于结构化数据(序列数据、图数据)的理解推理能力。 2、课题背景:风控场景下的数据主要为结构化数据,而目前大模型对于文本和图像的理解能力有了很大的提升,如何跟风控场景的非文本、图像数据(结构化数据)结合起来,让大模型能够更好的理解结构化的数据,是一个业界难题。面临着三大挑战 :(1)如何有效地将结构化的信息与nlp语义空间进行对齐,使得模型能够同时理解数据结构和语义信息;(2)如何用适当的指令使得大模型理解结构化数据中的结构信息;(3)如何赋予大语言模型图学习下游任务的逐步推理能力,从而逐步推断出更复杂的关系和属性。 3、课题内容:目前业界对结构化数据探索有:1、图数据理解相关GraphGPT:让大模型读懂图数据(SIGIR'2024) ;2、图数据RAG相关GraphRAG:Unlocking LLM discovery on narrative private data;3、序列数据理解相关StructGPT:面向结构化数据的大模型推理框架(EMNLP-2023)。目前的主要工作都是单一结构数据的理解,在风控场景下还面临几个问题:(1)对各种不同种类的的结构化数据融合理解怎么做,特别是融合图和序列数据的数据理解;(2)针对课题必要性中的问题;(3)对于下游任务的推理能力,目前的研究比较少,针对序列数据的推理能力研究非常少。 4、研究方向:大模型结构化数据理解、大模型结构化数据RAG、大模型思维链。
团队介绍:风控研发团队致力于解决各个产品(包括抖音、头条等)面临的各种黑灰产对抗问题,涵盖内容、交易、流量、账号等多个方面的风险治理领域。利用机器学习、多模态、大模型等技术对用户行为、内容进行理解从而识别潜在的风险和问题。不断深入理解业务和用户行为,进行模型和算法创新,打造业界领先的风控算法体系。 课题介绍: 1、课题目标:以风控数据为基础,优化提高大模型对于结构化数据(序列数据、图数据)的理解推理能力。 2、课题背景:风控场景下的数据主要为结构化数据,而目前大模型对于文本和图像的理解能力有了很大的提升,如何跟风控场景的非文本、图像数据(结构化数据)结合起来,让大模型能够更好的理解结构化的数据,是一个业界难题。面临着三大挑战 :(1)如何有效地将结构化的信息与nlp语义空间进行对齐,使得模型能够同时理解数据结构和语义信息;(2)如何用适当的指令使得大模型理解结构化数据中的结构信息;(3)如何赋予大语言模型图学习下游任务的逐步推理能力,从而逐步推断出更复杂的关系和属性。 3、课题内容:目前业界对结构化数据探索有:(1)图数据理解相关GraphGPT:让大模型读懂图数据(SIGIR'2024) ;(2)图数据RAG相关GraphRAG:Unlocking LLM discovery on narrative private data;(3)序列数据理解相关StructGPT:面向结构化数据的大模型推理框架(EMNLP-2023)。目前的主要工作都是单一结构数据的理解,在风控场景下还面临几个问题:(1)对各种不同种类的的结构化数据融合理解怎么做,特别是融合图和序列数据的数据理解;(2)针对课题必要性中的问题;(3)对于下游任务的推理能力,目前的研究比较少,针对序列数据的推理能力研究非常少。 4、研究方向:大模型结构化数据理解、大模型结构化数据RAG、大模型思维链。
团队介绍:风控研发团队致力于解决各个产品(包括抖音、头条等)面临的各种黑灰产对抗问题,涵盖内容、交易、流量、账号等多个方面的风险治理领域。利用机器学习、多模态、大模型等技术对用户行为、内容进行理解从而识别潜在的风险和问题。不断深入理解业务和用户行为,进行模型和算法创新,打造业界领先的风控算法体系。 课题介绍: 1、课题目标:以风控数据为基础,优化提高大模型对于结构化数据(序列数据、图数据)的理解推理能力。 2、课题背景:风控场景下的数据主要为结构化数据,而目前大模型对于文本和图像的理解能力有了很大的提升,如何跟风控场景的非文本、图像数据(结构化数据)结合起来,让大模型能够更好的理解结构化的数据,是一个业界难题。面临着三大挑战 :(1)如何有效地将结构化的信息与nlp语义空间进行对齐,使得模型能够同时理解数据结构和语义信息;(2)如何用适当的指令使得大模型理解结构化数据中的结构信息;(3)如何赋予大语言模型图学习下游任务的逐步推理能力,从而逐步推断出更复杂的关系和属性。 3、课题内容:目前业界对结构化数据探索有:(1)图数据理解相关GraphGPT:让大模型读懂图数据(SIGIR'2024) ;(2)图数据RAG相关GraphRAG:Unlocking LLM discovery on narrative private data;(3)序列数据理解相关StructGPT:面向结构化数据的大模型推理框架(EMNLP-2023)。目前的主要工作都是单一结构数据的理解,在风控场景下还面临几个问题:(1)对各种不同种类的的结构化数据融合理解怎么做,特别是融合图和序列数据的数据理解。(2)针对课题必要性中的问题;(3)对于下游任务的推理能力,目前的研究比较少,针对序列数据的推理能力研究非常少。 4、研究方向:大模型结构化数据理解、大模型结构化数据RAG、大模型思维链。