字节跳动结构化数据融合大模型研究实习生-风控-筋斗云人才计划
任职要求
1、2026届及之后毕业,博士在读,计算机、网络安全、人工智能相关专业优先; 2、优秀的代码能力、扎实的数据结构和算法基础,熟练使用Python,熟悉Pytorch和TF者优先; 3、出色的问题定义、分析和解决能力,发表过CCF-A类论文,在AAAI、NeurIPS、SIGKDD、SIGIR等顶级期刊会议上发表论文者优先; 4、较强的抗压和沟通协作能力,对技术有追求,愿意和团队一起迎接挑战,追求创新。
工作职责
团队介绍:风控研发团队致力于解决各个产品(包括抖音、头条等)面临的各种黑灰产对抗问题,涵盖内容、交易、流量、账号等多个方面的风险治理领域。利用机器学习、多模态、大模型等技术对用户行为、内容进行理解从而识别潜在的风险和问题。不断深入理解业务和用户行为,进行模型和算法创新,打造业界领先的风控算法体系。 课题介绍: 1、课题目标:以风控数据为基础,优化提高大模型对于结构化数据(序列数据、图数据)的理解推理能力。 2、课题背景:风控场景下的数据主要为结构化数据,而目前大模型对于文本和图像的理解能力有了很大的提升,如何跟风控场景的非文本、图像数据(结构化数据)结合起来,让大模型能够更好的理解结构化的数据,是一个业界难题。面临着三大挑战 :(1)如何有效地将结构化的信息与nlp语义空间进行对齐,使得模型能够同时理解数据结构和语义信息;(2)如何用适当的指令使得大模型理解结构化数据中的结构信息;(3)如何赋予大语言模型图学习下游任务的逐步推理能力,从而逐步推断出更复杂的关系和属性。 3、课题内容:目前业界对结构化数据探索有:(1)图数据理解相关GraphGPT:让大模型读懂图数据(SIGIR'2024) ;(2)图数据RAG相关GraphRAG:Unlocking LLM discovery on narrative private data;(3)序列数据理解相关StructGPT:面向结构化数据的大模型推理框架(EMNLP-2023)。目前的主要工作都是单一结构数据的理解,在风控场景下还面临几个问题:(1)对各种不同种类的的结构化数据融合理解怎么做,特别是融合图和序列数据的数据理解。(2)针对课题必要性中的问题;(3)对于下游任务的推理能力,目前的研究比较少,针对序列数据的推理能力研究非常少。 4、研究方向:大模型结构化数据理解、大模型结构化数据RAG、大模型思维链。
团队介绍:风控研发团队致力于解决各个产品(包括抖音、头条等)面临的各种黑灰产对抗问题,涵盖内容、交易、流量、账号等多个方面的风险治理领域。利用机器学习、多模态、大模型等技术对用户行为、内容进行理解从而识别潜在的风险和问题。不断深入理解业务和用户行为,进行模型和算法创新,打造业界领先的风控算法体系。 课题介绍: 1、课题目标:以风控数据为基础,优化提高大模型对于结构化数据(序列数据、图数据)的理解推理能力。 2、课题背景:风控场景下的数据主要为结构化数据,而目前大模型对于文本和图像的理解能力有了很大的提升,如何跟风控场景的非文本、图像数据(结构化数据)结合起来,让大模型能够更好的理解结构化的数据,是一个业界难题。面临着三大挑战 :(1)如何有效地将结构化的信息与nlp语义空间进行对齐,使得模型能够同时理解数据结构和语义信息;(2)如何用适当的指令使得大模型理解结构化数据中的结构信息;(3)如何赋予大语言模型图学习下游任务的逐步推理能力,从而逐步推断出更复杂的关系和属性。 3、课题内容:目前业界对结构化数据探索有:1、图数据理解相关GraphGPT:让大模型读懂图数据(SIGIR'2024) ;2、图数据RAG相关GraphRAG:Unlocking LLM discovery on narrative private data;3、序列数据理解相关StructGPT:面向结构化数据的大模型推理框架(EMNLP-2023)。目前的主要工作都是单一结构数据的理解,在风控场景下还面临几个问题:(1)对各种不同种类的的结构化数据融合理解怎么做,特别是融合图和序列数据的数据理解;(2)针对课题必要性中的问题;(3)对于下游任务的推理能力,目前的研究比较少,针对序列数据的推理能力研究非常少。 4、研究方向:大模型结构化数据理解、大模型结构化数据RAG、大模型思维链。
团队介绍:风控研发团队致力于解决各个产品(包括抖音、头条等)面临的各种黑灰产对抗问题,涵盖内容、交易、流量、账号等多个方面的风险治理领域。利用机器学习、多模态、大模型等技术对用户行为、内容进行理解从而识别潜在的风险和问题。不断深入理解业务和用户行为,进行模型和算法创新,打造业界领先的风控算法体系。 课题介绍: 1、课题目标:以风控数据为基础,优化提高大模型对于结构化数据(序列数据、图数据)的理解推理能力。 2、课题背景:风控场景下的数据主要为结构化数据,而目前大模型对于文本和图像的理解能力有了很大的提升,如何跟风控场景的非文本、图像数据(结构化数据)结合起来,让大模型能够更好的理解结构化的数据,是一个业界难题。面临着三大挑战 :(1)如何有效地将结构化的信息与nlp语义空间进行对齐,使得模型能够同时理解数据结构和语义信息;(2)如何用适当的指令使得大模型理解结构化数据中的结构信息;(3)如何赋予大语言模型图学习下游任务的逐步推理能力,从而逐步推断出更复杂的关系和属性。 3、课题内容:目前业界对结构化数据探索有:(1)图数据理解相关GraphGPT:让大模型读懂图数据(SIGIR'2024) ;(2)图数据RAG相关GraphRAG:Unlocking LLM discovery on narrative private data;(3)序列数据理解相关StructGPT:面向结构化数据的大模型推理框架(EMNLP-2023)。目前的主要工作都是单一结构数据的理解,在风控场景下还面临几个问题:(1)对各种不同种类的的结构化数据融合理解怎么做,特别是融合图和序列数据的数据理解;(2)针对课题必要性中的问题;(3)对于下游任务的推理能力,目前的研究比较少,针对序列数据的推理能力研究非常少。 4、研究方向:大模型结构化数据理解、大模型结构化数据RAG、大模型思维链。
团队介绍:风控研发团队致力于解决各个产品(包括抖音、头条等)面临的各种黑灰产对抗问题,涵盖内容、交易、流量、账号等多个方面的风险治理领域。利用机器学习、多模态、大模型等技术对用户行为、内容进行理解从而识别潜在的风险和问题。不断深入理解业务和用户行为,进行模型和算法创新,打造业界领先的风控算法体系。 课题介绍: 1、课题目标:以风控数据为基础,优化提高大模型对于结构化数据(序列数据、图数据)的理解推理能力。 2、课题背景:风控场景下的数据主要为结构化数据,而目前大模型对于文本和图像的理解能力有了很大的提升,如何跟风控场景的非文本、图像数据(结构化数据)结合起来,让大模型能够更好的理解结构化的数据,是一个业界难题。面临着三大挑战 :(1)如何有效地将结构化的信息与nlp语义空间进行对齐,使得模型能够同时理解数据结构和语义信息;(2)如何用适当的指令使得大模型理解结构化数据中的结构信息;(3)如何赋予大语言模型图学习下游任务的逐步推理能力,从而逐步推断出更复杂的关系和属性。 3、课题内容:目前业界对结构化数据探索有:(1)图数据理解相关GraphGPT:让大模型读懂图数据(SIGIR'2024) ;(2)图数据RAG相关GraphRAG:Unlocking LLM discovery on narrative private data;(3)序列数据理解相关StructGPT:面向结构化数据的大模型推理框架(EMNLP-2023)。目前的主要工作都是单一结构数据的理解,在风控场景下还面临几个问题:(1)对各种不同种类的的结构化数据融合理解怎么做,特别是融合图和序列数据的数据理解。(2)针对课题必要性中的问题。(3)对于下游任务的推理能力,目前的研究比较少,针对序列数据的推理能力研究非常少。 4、研究方向:大模型结构化数据理解、大模型结构化数据RAG、大模型思维链。
研究领域: 人工智能 项目简介: 蚂蚁国际当前处于全球化和AI规模化应用的战略关键节点中,为支持多条业务线的业务规模化增长,蚂蚁国际风控致力于AI的创新及其在风控场景的应用。应用场景包括但不限于基于多智能体的风控决策系统, Deepfake识别,风控深度推理大模型等解决实际业务痛点。团队鼓励创新,勇于探索及突破前沿AI能力边界。 1.负责foundation model和生成式AI智能体构建,追踪业界文本生成、思维学习、内容理解等方向的最新技术,极致优化预训练、微调、领域知识注入、RLHF、RM、AI可解释能力。 2.负责AI技术前沿技术跟踪、创新和落地,例如,利用意图理解、图文理解等构建新一代的生成式审核机器人与辅助系统,运用反馈标注、知识体系建设、知识图谱构建等任务;利用多模态技术对图像、文本、结构化数据进行融合学习,致力于挖掘风控场景问题并全面提升风险运营效率,并帮助实现对合规、欺诈、洗钱等风险的高效管控。 3.深入跟踪调研前沿技术方向 ,包括但不限于 NLP/CV/多模态/智能体等,并适时进行技术分享。推动相关领域技术创新,进行专利申请和学术文章发表,产出至少一篇CCF-A以上论文。