蚂蚁金服蚂蚁集团-算法工程师-大模型数据认知方向
任职要求
● 计算机科学、人工智能、深度学习或相关领域的硕士及以上学历。 ● 熟练掌握PyTorch、Tensorflow 等深度学习框架,理解大模型训练数据的需求,熟悉模型数据的链路, ● 优秀的定义、分析、解决问题的能力,自我驱动,具备较强的学习、创新应用和沟通协调能力,problem-solver 以下情况优先考虑: ● 有大…
工作职责
大模型数据认知方向,负责设计和开发先进的算法,解决大模型数据生产中的关键问题,包括但不限于数据知识体系生成、语料自动分类、智能数据标注、权威评测集建设以及基于评测的语料质量评估与合成。你的工作将直接影响蚂蚁大模型的训练效果和性能表现。工作将涉及以下1个或多个方向 ● 数据知识体系生成: 研究基于LLM的自动知识图谱生成技术,设计并实现自动化算法,构建高效、可扩展的大模型数据知识体系。 ● 语料自动分类: 基于数据知识体系,研究和开发语料分类算法,指导大模型数据的拓展方向; ● 权威评测集建设: 研究业界现有评测集的缺陷,构建标准化、多样化的权威评测集,用于评估大模型的性能; 与跨职能团队合作,确保评测集覆盖全面且具有代表性。 ● 语料质量评估与合成: 建立大模型训练的数据驱动体系,开发语料质量评估算法,识别低质量或噪声数据。 研究数据驱动的语料合成技术,基于模型的评测效果,针对性合成能够改进模型效果的训练语料,提升模型迭代效率 ● 智能标注链路研发: 基于大模型数据的标注需求,研发辅助打标算法; 设计构建 AI辅助的标注质量检验与标注提效的算法链路,提升人工标注的质检效率与标注质量 ● 技术创新与优化: 持续跟踪学术界和工业界的最新研究成果,探索前沿技术在大模型数据中的应用。 针对实际业务需求,提出创新性的解决方案并快速落地。
大模型数据认知方向,负责设计和开发先进的算法,解决大模型数据生产中的关键问题,包括但不限于数据知识体系生成、语料自动分类、智能数据标注、权威评测集建设以及基于评测的语料质量评估与合成。你的工作将直接影响蚂蚁大模型的训练效果和性能表现。工作将涉及以下1个或多个方向 1、数据知识体系生成: 研究基于LLM的自动知识图谱生成技术,设计并实现自动化算法,构建高效、可扩展的大模型数据知识体系。 2、语料自动分类: 基于数据知识体系,研究和开发语料分类算法,指导大模型数据的拓展方向; 3、权威评测集建设: 研究业界现有评测集的缺陷,构建标准化、多样化的权威评测集,用于评估大模型的性能; 与跨职能团队合作,确保评测集覆盖全面且具有代表性。 4、语料质量评估与合成: 建立大模型训练的数据驱动体系,开发语料质量评估算法,识别低质量或噪声数据。 研究数据驱动的语料合成技术,基于模型的评测效果,针对性合成能够改进模型效果的训练语料,提升模型迭代效率 5、智能标注链路研发: 基于大模型数据的标注需求,研发辅助打标算法; 设计构建 AI辅助的标注质量检验与标注提效的算法链路,提升人工标注的质检效率与标注质量 6、技术创新与优化: 持续跟踪学术界和工业界的最新研究成果,探索前沿技术在大模型数据中的应用。 针对实际业务需求,提出创新性的解决方案并快速落地。
1 负责搜索/推荐召回相关的算法设计、场景技术方案规划,实现方案在业务系统中的落地。算法包含但不限于:向量检索技术、基于树、图、量化、聚类等的各类检索方案、图神经网络、深度表示学习、对比学习、样本增强、集成学习、learning to rank、多任务学习、强化学习、迁移学习、模拟器等。 2 分析海量用户行为序列,深度理解和表示用户长短时兴趣,精准召回商品,提升平台效率和用户体验。 3 熟悉常用的向量检索技术,能够根据业务特点设计和优化索引类型。 4 负责召回多通道融合和各级漏斗方案的设计和优化,以及粗排CTR/CVR/LTR模型的设计和优化。 5 具有较强的业务敏感性,能够自主分析数据发现问题,结合业务实际情况提出有创新性的解决方案,并落地带来业务收益。 6 追踪召回算法前沿技术,能够结合拼多多的业务特点,设计出实际可用的召回前沿技术落地方案,并拿到业务收益。
在算力驱动的 AGI 和人文精神的烟火气交汇之处,我们真诚邀请对大模型 Omni Model 有热情的同学加入,共同打造更具影响力的智能系统。你会成为团队的一员,并和其他同事协作,共同研发 SOTA 的 Omni Model。期待你以务实和客观的科学态度来推进技术的进展,不被过往经验裹挟、不被主观偏好影响。期待你除了算法外仍然是为出色的工程师。期待你对技术有强烈的好奇心和开放心态。 区别于传统 ASR / TTS 级联技术,我们希望打造端到端的 Omni Model 在实时交互中释放大模型的智力水平,彻底改变以 Chatbot 文字为主的人机交互界面 岗位说明:你会负责围绕大模型 Omni Model 构建语音模态的相关研究工作,包括但不限于如下事项 海量的语音数据处理和构建:定性分析、定量评估数据质量,并给出 scalable 的改进方案;探索跨模态(文字/视觉/语音)混合训练的最佳实践; 探索更加高效且合理的模型架构,让模型更加理解音频,同时让模型具备更好的语音合成能力 研究并探索基于 Omni Model 的 Post Train,包含但不限于 SFT 和 RL
蚂蚁国际数据算法技术部正在寻找具备大模型预训练技术能力或强烈探索意愿的算法工程师。你将推动AI前沿技术在支付领域的深度落地,重点探索大模型预训练技术与支付场景的融合创新。加入我们,你将直接参与百亿级参数模型的研发实践,打造智能支付领域的下一代核心技术。 1. 参与支付交易核心场景的优化算法设计与开发,包括但不限于交易路由决策、成本优化、成功率提升、风险控制等方向; 2. 构建基于海量支付数据(成功率/耗时/成本)的预训练基座模型,探索大模型与传统深度学习/强化学习技术的融合应用 3. 持续跟踪大模型前沿技术,探索MoE、多模态预训练等技术在跨境支付中的创新应用 4. 主导从模型预训练到业务落地的全链路优化,打造具备金融领域认知能力的智能支付大脑