荣耀AIGC合成检测技术高级工程师
任职要求
1、具备对图像、音频、视频及文字合成&生成内容等深度学习分类检测算法相关项目设计和开发经验; 2、熟悉AIGC生成相关图像/视频、音频和文字的单模态、多模态生成框架/算法; 3、熟悉Tensorflow、PyTorch相关深度学习算法框架,有相应的模型设计和实现经验; 4、具备…
工作职责
负责Android平台AIGC内容合成检测技术的研究和开发设计,构建终端产品的移动安全能力和竞争力。 1、围绕移动智能终端AIGC内容生成带来的认知安全风险,完成AIGC内容检测和风控产品解决方案设计和开发; 2、负责AIGC内容检测模型设计、评估、剪枝、量化等相关工作,构建算法平台和量化训练工具; 3、开展AIGC内容生成与检测算法攻防对抗的前瞻性研究与洞察,并拓展业务落地。
1、围绕移动智能终端AIGC内容生成带来的认知安全风险,完成AIGC内容检测和风控产品解决方案设计和开发; 2、负责AIGC内容检测模型设计、评估、剪枝、量化等相关工作,构建算法平台和量化训练工具; 3、开展AIGC内容生成与检测算法攻防对抗的前瞻性研究与洞察,并拓展业务落地。
研究领域: 机器学习 项目简介: AIGC技术层次不穷,新的AIGC技术浪潮迅猛发展,与此同时,我们必须提升AIGC防伪检测的水平。例如:互联网上充斥着大量“以假乱真”的音视频内容,将影响正常的社会舆论趋势和人的审美美感,也伴随着一些内容安全隐患,可能对人类的价值观和道德观产生负面的影响,需要引起重视。 AIGC典型应用包括:深度伪造视频,深度伪造音频,或者部分深度伪造视频中也包含一些深度伪造的音频,本子课题重点针对音频深度伪造的检测技术。常用的音频深度伪造有逻辑攻击和物理攻击两大类,其中,物理攻击------采用变声器等录音设备进行声音转换,或录音重放等方式生成伪造语音数据;逻辑攻击------通过语音合成Text-to-Speech(TTS) ,音色转换Voice Conversion(VC)和语音克隆Voice Cloning(VC)等深度网络方法生成伪造音频。探索AIGC时代音频防伪技术,加强安全防控,防范新型未知风险。
技术规划与方案设计 (1) 负责语音信号增强、语音识别(ASR)、语音合成(TTS)、计算机视觉(CV)等算法领域的技术需求分析,制定中长期技术路线图,形成可落地的系统架构方案。 (2) 将复杂算法需求拆解为模块化任务,协调算法团队、工程团队排期开发,确保技术方案高效实施与迭代。 跨团队技术整合 (1) 跟踪前沿算法研究成果(如端侧轻量化、多模态融合),推动其落地应用。 (2) 设计跨部门协作的技术接口与数据流程,确保算法能力与产品需求无缝衔接,形成差异化的解决方案。 技术决策与创新 (1) 评估技术选型(如模型框架、部署方案),优化算法性能(精度、延迟、资源占用),解决关键技术瓶颈。 (2) 主导预研项目,探索多技术融合创新(如多模态交互、主动感知),为公司战略方向提供技术储备。
1. 通过多模态算法进行用户的可信认知,支持十亿级支付宝用户,业务覆盖支付宝、蚂蚁国际、消金、财富、保险、生态等蚂蚁全域场景。 2. 方向一:多模态理解与推理方向,负责全面、高精、高效的多模态垂域模型研发,深耕视觉图像&视频reasoning,提升理解和推理能力,攻坚reward设计、多模态推理框架设计等核心问题。 3. 方向二:负责声纹识别、声音防伪算法以及意图理解等算法,探索声纹表征、声纹防伪、ASR、语音合成等All-In-One模型方案,研发金融级识别和防伪算法,落地与实际支付场景; 4. 方向三:声学算法部分,负责波束成形、声源定位、阵列增强、音频编解码等软硬件一体语音信号处理算法原型开发、性能优化 5. 关注多模态以及语音大模型算法前沿技术和发展动态,持续探索新一代AI驱动的、高效的、有效的、业务及产品新范式,推动业务发展、引领行业变革;