腾讯金融科技-文本大模型算法工程师
任职要求
1.熟练掌握PyTorch、Swift、Verl等一种或多种大模型训练框架,具备文本大模型(如代码大模型、对话模型)及大模型智能体(Agent)系统的开发与调优经验; 2.熟悉大模型训练范式,包括增量预训练(CPT)、有监督微调(SFT)、强化学习(RL)等,具备分布式训练经验; 3.熟悉RLVR(可验证奖励强化学习)或者Agentic-RL的流程,有文本任务强化学习、代码生成或智…
工作职责
1.负责文本大模型在AI编程垂直领域(如代码生成、工具调用、接口测试)的数据构造、Post-Training与评估全流程; 2.深入代码大模型与文本推理方向,进行模型调优与能力创新,覆盖代码补全、流水线自动化、测试用例生成等场景;开展大模型智能体(Agent)的开发与设计,包括智能体工作流编排、工具调用规划、复杂任务分解与执行等; 3.负责文本上下文压缩技术的研究,并在代码检索、知识库问答领域的落地,包括Embedding压缩、长上下文(Long-context)优化、结构化文本处理等; 4.负责基于大模型的知识检索问答(如RAG)系统的研发与优化,包括领域知识库构建、检索增强生成技术应用、问答准确性提升等; 5.跟踪文本大模型、程序语言处理及智能体技术领域的技术进展,评估其在研发效能提升方面的应用潜力。
为应对日益复杂的金融欺诈手段和动态变化的信用风险环境,我们正在全面推进风险管理智能化升级。现诚邀一位具备前沿AI技术视野与实战能力的 AI创新算法专家 加入我们的核心团队,主导基于大语言模型(LLM)、多模态大模型等新一代人工智能技术的风险链路重构项目。 你将作为AI技术创新的引领者,推动从传统规则驱动向“感知-推理-决策”一体化智能风控体系的演进,构建覆盖贷前、贷中、贷后及支付全链路的下一代智能风控架构,显著提升风险识别精度、响应速度与自动化水平。 主要职责 1,主导AI驱动的风险链路重构项目:设计并落地基于LLM与多模态大模型(文本、图像、音频、行为序列等)的端到端风险识别系统,重构现有反欺诈、信用评估与支付风控流程。 2,构建智能风险理解引擎:利用大模型对非结构化数据(如客户沟通记录、社交信息、交易描述、证件图像、视频认证等)进行深度语义理解与关联分析,挖掘潜在风险信号。 3,开发自适应风险推理框架:结合知识图谱、因果推断与大模型的推理能力,实现对复杂欺诈模式(如团伙欺诈、身份冒用、场景伪装)的自动归因与可解释性输出。 4,探索多模态融合建模:整合文本、图像、生物特征、设备指纹、行为时序等多源异构数据,构建统一表征空间,提升高隐蔽性风险的检出率。 5,推动AI能力产品化与工程落地:与工程、数据平台及业务团队协作,完成模型部署、A/B测试、性能监控与持续迭代,确保在高并发、低延迟场景下的稳定运行。 6,跟踪前沿技术动态:持续关注大模型、Agent智能体、RAG、Prompt Engineering、小样本学习等技术在金融风控中的应用进展,推动技术预研与创新试点。 7,建立AI风控伦理与合规框架:确保模型设计符合数据隐私、公平性与监管要求,规避偏见与滥用风险。
团队介绍:依托抖音集团的科技能力和产品,我们为抖音电商、生活服务、直播等场景提供金融服务,为抖音用户提供更好的支付、消费金融、保险等金融服务。科技创新,普惠大众。 大模型&NLP算法团队,支持财经各业务场景的大模型/NLP算法,负责包括智能客服、智能助理、智能外呼、客户体验体系建设等财经NLP及对话应用场景的建设。通过财经领域知识结合生成式大模型、检索增强生成(RAG)、文本理解等技术。建设财经领域内行业领先的智能对话能力和自然语言理解能力,提升财经用户体验和保险/消金等场景智能售前/售后的转化率和满意度。 课题背景: 尽管现有的预训练语言模型在通用领域的生成任务中表现出色,但由于训练数据专业性不足和训练任务缺乏针对性,其在财经领域的应用仍存在明显短板。这主要体现在难以准确理解财经领域特有的业务知识,以及生成内容无法符合该领域特定的业务规则等方面。例如,在财经对话场景中,模型由于缺乏业务背景知识,可能会误解用户意图,生成违反业务规则或偏离市场实际情况的回答,甚至生成与财经业务不符的内容,从而导致生成结果的可信度不足。因此,如何通过领域自适应学习、领域动态知识注入以及领域可解释性生成等技术,提升模型对财经领域的理解和生成能力,已成为一个亟待解决的关键难题。 课题挑战: 目前的预训练语言模型主要基于通用领域的大规模文本数据进行训练,但在面对垂直领域的挑战时,尤其是依赖精确市场分析和特有业务背景知识的财经领域场景,仍然面临诸多困难。这些模型在理解复杂领域文本、整合专业知识、完成特定任务推理以及生成可靠的领域文本方面,存在明显局限性。 首先,当前的大规模预训练语言模型在财经领域的业务知识理解和整合方面仍存在明显不足。即便是像 GPT-4 等当前最先进的模型,也未能深入学习和掌握财经领域的业务背景、知识体系以及行业规范,导致其在财经对话场景中难以精准把握用户意图,无法准确理解复杂的业务逻辑和上下文关联关系。此外,这些模型缺少领域专家知识的监督机制,生成的文本容易出现业务逻辑错误和事实偏差,甚至违反财经领域特定的业务规则。因此,如何构造针对财经领域的自适应训练任务,增强模型在财经领域的知识理解能力,已成为亟待解决的关键问题。 其次,财经领域高度依赖动态更新的市场信息,而当前的大规模预训练语言模型难以快速适配动态更新的领域知识。由于预训练阶段知识的滞后性,这些模型无法在对话中提供对用户有价值的实时分析与建议。因此,如何改进领域知识注入和动态知识学习的训练方法,提升模型在财经对话场景下快速适应新知识的能力,是大模型快速迁移垂直领域的急迫需求。 最后,现有生成式人工智能在财经对话场景中的透明性和可解释性方面仍显不足,用户难以清晰了解模型生成过程及其依据,导致生成结果特别是在涉及市场预测或投资策略等高风险场景时的可信度受到质疑。因此,如何提升文本生成的透明性和可解释性,提升文本生成可信性,是大模型正式投身生产应用的关键卡点。
1、深度理解小微企业的金融需求、经营痛点及风险特征,结合AI技术发展趋势,设计并优化AI智能客户经理。 2、设计并定义多模态(语音、文本、图像、乃至视频)的自然交互体验,确保其亲切、专业、高效,并能精准理解客户意图;主导构建客户全景视图,打通“需求识别 -> 经营分析 -> 风险洞察 -> 服务匹配”的完整产品闭环。 3、与AI算法、工程研发团队紧密合作,进行技术可行性评估,主导模型能力(如NLP、ASR、意图识别、风险预测模型)的需求定义、效果验收和持续迭代优化。
作为蚂蚁集团核心安全数据中枢,我们构建金融级全域智能安全防御体系,深耕风险防控、数据资产保护、网络攻防对抗、内容生态治理等关键领域。依托EB级全域安全数据资产与万亿级实时计算能力,为集团数字支付、数字互联生态、数金业务矩阵(网商银行、财富管理、保险科技)、数字科技输出及全球化业务提供全链路安全赋能。 我们依托先进的大数据分析技术和机器学习算法,深度挖掘数据中潜藏的风险与威胁,通过智能预测与主动防御机制,实现安全事件的精准识别与快速响应。持续追踪前沿技术发展,整合大数据、大模型和AI生成技术,成功打造了规模超千亿的多模态安全训练数据集。这些高质量数据集已成为集团大模型安全基础训练语料,广泛应用于大模型安全防御、大模型去毒及身份核验等关键安全领域。加入我们,你将有机会投身于前沿技术的研发与应用,亲身探索全球领先的科技创新成果。我们不仅提供行业领先的薪酬福利体系,更致力于为你营造专业、开放且富有活力的工作氛围。如果你对安全技术与数据应用怀有热忱,渴望在充满创新机遇与专业挑战的环境中实现职业成长,我们诚挚邀请你加入安全大数据技术团队!让我们携手共建智能安全新未来! 1.参与大模型预训练数据、sft数据、指令、CoT数据等样本处理计算和加工; 2.负责设计开发创新性数据合成算法,优化大模型训练中的高维稀疏数据表征与长尾分布处理; 3.负责搭建多模态数据生成工厂,探索文本、代码、图像的语义对齐与高质量合成,负责多模态数据分析与融合:处理文本、图像、音频等多模态数据,研发高效算法实现数据语义融合与精确解析; 4.设计先进的对抗式数据增强技术,提升噪声过滤精度并突破数据清洗瓶颈; 5.研究基于合成数据的大模型迭代机制,推动模型持续进化与提升性能。