蚂蚁金服研究型实习生-AIGC时代音频防伪检测技术研究-1
任职要求
1、目前正在攻读计算机科学或相关STEM领域的硕士或博士学位 2、掌握一种或多种通用编程语言,包括但不限于C/C++或Python 3、具有语音领域的相关研发经验,对前沿技术研究充满探索热情 优先录用 1、思…
工作职责
研究领域: 机器学习 项目简介: AIGC技术层次不穷,新的AIGC技术浪潮迅猛发展,与此同时,我们必须提升AIGC防伪检测的水平。例如:互联网上充斥着大量“以假乱真”的音视频内容,将影响正常的社会舆论趋势和人的审美美感,也伴随着一些内容安全隐患,可能对人类的价值观和道德观产生负面的影响,需要引起重视。 AIGC典型应用包括:深度伪造视频,深度伪造音频,或者部分深度伪造视频中也包含一些深度伪造的音频,本子课题重点针对音频深度伪造的检测技术。常用的音频深度伪造有逻辑攻击和物理攻击两大类,其中,物理攻击------采用变声器等录音设备进行声音转换,或录音重放等方式生成伪造语音数据;逻辑攻击------通过语音合成Text-to-Speech(TTS) ,音色转换Voice Conversion(VC)和语音克隆Voice Cloning(VC)等深度网络方法生成伪造音频。探索AIGC时代音频防伪技术,加强安全防控,防范新型未知风险。
【团队介绍】 我们是菜鸟的创新团队,致力于打造公司级AI工作助手——“菜包”。“菜包”不仅仅是一个工具,更是定义“菜鸟人AI工作方式”的核心平台。它集成了文档创作、应用生成、数据分析等多种“AI实习生”(Agent)能力,旨在通过前沿的AI技术,革新内部工作流程,大幅提升组织效率与创造力。你将有机会参与定义下一代人机协同范式,设计一款真正能改变数万人工作方式的革命性产品。 【职位职责】 1. 负责“菜包AI”产品的全链路用户体验设计,涵盖Web端及其他潜在终端,确保产品整体的可用性、易用性与专业性。 2. 与产品经理、算法工程师、开发工程师等团队成员紧密协作,深入理解业务需求与技术实现,提供创新且可落地的设计方案,并高效推动其实现。 3. 构建和维护菜包AI的设计规范和组件库,保证产品体验的一致性和品牌形象的统一性。 4. 深度参与用户研究,通过用户访谈、数据分析等方法,洞察菜鸟员工在不同工作场景下的痛点和诉求,并以此驱动设计迭代,重点关注**工作效率提升、AI采纳度**等核心指标。 5. 探索和定义AI时代下全新的人机交互模式,尤其是在**智能体(Agent)交互、对话式界面(CUI)、AIGC内容生成与编排**等前沿领域,致力于提升AI产品的可信度、可控性与用户满意度。 6. 持续关注业界(特别是企业级AI应用、AIGC工具)的设计趋势和技术进展,并将其转化为对产品的设计优化建议和创新机会。
我们是阿里妈妈智能创作与AI应用团队, 长期从事利用CV NLP等多模态和多媒体技术进行内容创作、内容理解的算法工作,团队耕耘技术多年,在电商创意素材生成领域 有广泛的业界影响力,研发出阿里妈妈创意中心、万相实验室等产品以及阿里妈妈智能图片制作(Auto Poster)、阿里妈妈视频生成(AtomoVideo)等技术,研究成果发表在 CVPR、ICCV、AAAI、ACM MM、WWW、ACL 等学术顶会。 我们诚挚欢迎你加入团队,工作内容为下列之一: 1. 需要1年Diffusion Models扩散图像生成经验(强相关)。1年图像领域相关经验。 2. 需要在广告 或者 电商 场景的图像算法应用经验。 3. 需要在图像生成方向有顶会论文,CVPR,ECCV,NIPS,MM。
研究领域: 人工智能 项目简介: AIGC持续发展,以人为中心的图像、视频、语音等模型的生成能力愈发成熟,最近动动嘴就能PS、图像、视频及语音等产品例如25年3月发布的谷歌的Gemini 2.0Flash以及字节的SeedEdit等产品,迅速走进大众,AIGC等对抗愈发激烈且常态化。目前防控手段都是单模态进行防控,所有模态All-in-one的omini模型目前尚未有好的工作,同时结合类似deepseek多模态推理解决泛化能力、文本之外基于基于多模态生成式的视觉Reward去打造新的左右互搏式LMM范式,以及世界模型思路下去预测未来攻击的方案,都是当下可以探索的思路,目标是围绕AI信息原生可信打造成安全特色能力。