logo of bytedance

字节跳动AI安全研究员-TikTok隐私创新实验室-筋斗云人才计划

校招全职A186054A地点:杭州状态:招聘

任职要求


1、获得博士学位,人工智能、计算机、软件、数学等相关专业优先;
2、在生成AI方向有扎实的基础和代码能力,在ICLR/NeurIPS/ICML等顶级期刊会议上发表论文者优先;  
3、熟悉大模型方向的业界动态,对新知识有快速的学习好奇心和快速的上手能力;                                 
4、良好的沟通协作能力,能和团队一起探索新技术,推进技术进步。

工作职责


团队介绍:隐私创新实验室,致力于探索数据隐私安全领域的前沿技术和理论,为业务高速发展提供洞悉行业趋势的技术咨询和创新性的技术解决方案。隐私创新实验室在数据安全领域拥有长期愿景与决心,研究方向覆盖数字主权、合规智能、大模型个人隐私数据保护等。在日益趋严的隐私合规管理的历史时刻,多极化的数字主权意识逐步觉醒,我们更需要融合学术界和产业界的经验智慧,引入前沿技术和理论,为承载海量用户和海量数据的互联网业务提供高效完备的数据隐私安全保障,突破合规瓶颈,支持业务持续突破创新。

课题介绍:生成式AI技术在创意产业、教育、医疗、法律等领域展现了巨大的潜力。然而,随着这些技术的发展,隐私问题也逐渐浮出水面。生成式AI模型通过学习大量的训练数据来生成新的内容,其中可能包含大量敏感的个人信息。如果训练数据或者模型训练过程没有进行足够的隐私保护,生成的内容可能泄露训练数据中的私人信息。例如,生成的文本可能无意中包含了训练数据中个人的敏感细节,图像生成模型可能会重构出真实世界的个人面孔或位置,甚至生成个人的生物特征。
因此,如何在不泄露个人隐私的前提下,利用生成式AI模型的强大能力,成为了一个亟待解决的关键问题。如何设计既能保证隐私保护,又能保持生成效果和模型性能的生成式AI,正成为该领域的前沿研究方向。

课题挑战:
1、隐私泄露风险:生成式AI模型的训练依赖于大量的数据,尤其是在自然语言处理和图像生成领域。训练过程中,模型可能会记忆训练数据的某些特定信息,这些信息可能会被生成模型复现。举例来说,GPT类语言模型可能会无意间生成包含训练数据中某个人身份信息、地址或其他敏感数据的文本。如何确保生成模型不会泄露这些信息,成为隐私保护中的一大挑战;
2、数据扰动与模型质量:为了防止隐私泄露,常用的隐私保护技术(如差分隐私)通常需要对训练数据进行扰动或噪声注入。然而,这种扰动可能导致生成模型失去对数据的精确建模能力,从而影响生成内容的质量。尤其在生成任务中,模型的质量直接决定了输出内容的实用性和创造性,因此,如何在保护隐私的同时,尽可能地保持生成结果的高质量,是一个亟需解决的问题;
3、模型的“记忆”与“复用”问题:生成式AI模型通过学习大量的数据来建立生成规则,但是它们也可能在训练过程中“记住”数据的细节。这个问题在某些情况下可能表现为“记忆泄露”,即模型输出内容可能无意间重现训练集中的某些特定片段,尤其是在小样本或高敏感度的数据集上。如何防止生成式AI模型“记忆”并复用具体的个人信息,而只是学习到数据的“规律”或“特征”,是设计隐私保护机制时必须要考虑的重要问题;
4、合规性与跨境数据流动:各国对隐私保护有不同的法律规定,例如GDPR、CCPA等都对如何处理和传输个人数据提出了严格要求。对于跨境数据流动,如何确保在进行生成式AI训练时遵守不同地区的数据隐私法规,特别是在涉及敏感个人信息时,成为了一个复杂的法律和技术挑战。此外,生成式模型可能涉及多个数据源和多个国家的用户数据,如何在这些环境下平衡隐私保护与合规性,也是值得关注的问题;
5、生成内容的透明性与可解释性:尽管生成式AI模型的生成能力令人惊叹,但它们往往缺乏足够的透明性,导致用户难以理解生成结果背后的原因。在隐私保护背景下,如何使生成模型具备更好的可解释性,能够让用户理解模型是如何生成特定内容的,且该内容是否涉及隐私信息,是增强用户信任的关键。这一挑战不仅仅是技术问题,也是伦理和社会问题。
包括英文材料
学历+
NeurIPS+
ICML+
大模型+
相关职位

logo of bytedance
校招A101610

团队介绍:隐私创新实验室,致力于探索数据隐私安全领域的前沿技术和理论,为业务高速发展提供洞悉行业趋势的技术咨询和创新性的技术解决方案。隐私创新实验室在数据安全领域拥有长期愿景与决心,研究方向覆盖数字主权、合规智能、大模型个人隐私数据保护等。在日益趋严的隐私合规管理的历史时刻,多极化的数字主权意识逐步觉醒,我们更需要融合学术界和产业界的经验智慧,引入前沿技术和理论,为承载海量用户和海量数据的互联网业务提供高效完备的数据隐私安全保障,突破合规瓶颈,支持业务持续突破创新。 课题介绍:生成式AI技术在创意产业、教育、医疗、法律等领域展现了巨大的潜力。然而,随着这些技术的发展,隐私问题也逐渐浮出水面。生成式AI模型通过学习大量的训练数据来生成新的内容,其中可能包含大量敏感的个人信息。如果训练数据或者模型训练过程没有进行足够的隐私保护,生成的内容可能泄露训练数据中的私人信息。例如,生成的文本可能无意中包含了训练数据中个人的敏感细节,图像生成模型可能会重构出真实世界的个人面孔或位置,甚至生成个人的生物特征。 因此,如何在不泄露个人隐私的前提下,利用生成式AI模型的强大能力,成为了一个亟待解决的关键问题。如何设计既能保证隐私保护,又能保持生成效果和模型性能的生成式AI,正成为该领域的前沿研究方向。 课题挑战: 1、隐私泄露风险:生成式AI模型的训练依赖于大量的数据,尤其是在自然语言处理和图像生成领域。训练过程中,模型可能会记忆训练数据的某些特定信息,这些信息可能会被生成模型复现。举例来说,GPT类语言模型可能会无意间生成包含训练数据中某个人身份信息、地址或其他敏感数据的文本。如何确保生成模型不会泄露这些信息,成为隐私保护中的一大挑战; 2、数据扰动与模型质量:为了防止隐私泄露,常用的隐私保护技术(如差分隐私)通常需要对训练数据进行扰动或噪声注入。然而,这种扰动可能导致生成模型失去对数据的精确建模能力,从而影响生成内容的质量。尤其在生成任务中,模型的质量直接决定了输出内容的实用性和创造性,因此,如何在保护隐私的同时,尽可能地保持生成结果的高质量,是一个亟需解决的问题; 3、模型的“记忆”与“复用”问题:生成式AI模型通过学习大量的数据来建立生成规则,但是它们也可能在训练过程中“记住”数据的细节。这个问题在某些情况下可能表现为“记忆泄露”,即模型输出内容可能无意间重现训练集中的某些特定片段,尤其是在小样本或高敏感度的数据集上。如何防止生成式AI模型“记忆”并复用具体的个人信息,而只是学习到数据的“规律”或“特征”,是设计隐私保护机制时必须要考虑的重要问题; 4、合规性与跨境数据流动:各国对隐私保护有不同的法律规定,例如GDPR、CCPA等都对如何处理和传输个人数据提出了严格要求。对于跨境数据流动,如何确保在进行生成式AI训练时遵守不同地区的数据隐私法规,特别是在涉及敏感个人信息时,成为了一个复杂的法律和技术挑战。此外,生成式模型可能涉及多个数据源和多个国家的用户数据,如何在这些环境下平衡隐私保护与合规性,也是值得关注的问题; 5、生成内容的透明性与可解释性:尽管生成式AI模型的生成能力令人惊叹,但它们往往缺乏足够的透明性,导致用户难以理解生成结果背后的原因。在隐私保护背景下,如何使生成模型具备更好的可解释性,能够让用户理解模型是如何生成特定内容的,且该内容是否涉及隐私信息,是增强用户信任的关键。这一挑战不仅仅是技术问题,也是伦理和社会问题。

更新于 2025-05-19
logo of bytedance
校招A49457

团队介绍:隐私创新实验室,致力于探索数据隐私安全领域的前沿技术和理论,为业务高速发展提供洞悉行业趋势的技术咨询和创新性的技术解决方案。隐私创新实验室在数据安全领域拥有长期愿景与决心,研究方向覆盖数字主权、合规智能、大模型个人隐私数据保护等。在日益趋严的隐私合规管理的历史时刻,多极化的数字主权意识逐步觉醒,我们更需要融合学术界和产业界的经验智慧,引入前沿技术和理论,为承载海量用户和海量数据的互联网业务提供高效完备的数据隐私安全保障,突破合规瓶颈,支持业务持续突破创新。 课题介绍:生成式AI技术在创意产业、教育、医疗、法律等领域展现了巨大的潜力。然而,随着这些技术的发展,隐私问题也逐渐浮出水面。生成式AI模型通过学习大量的训练数据来生成新的内容,其中可能包含大量敏感的个人信息。如果训练数据或者模型训练过程没有进行足够的隐私保护,生成的内容可能泄露训练数据中的私人信息。例如,生成的文本可能无意中包含了训练数据中个人的敏感细节,图像生成模型可能会重构出真实世界的个人面孔或位置,甚至生成个人的生物特征。 因此,如何在不泄露个人隐私的前提下,利用生成式AI模型的强大能力,成为了一个亟待解决的关键问题。如何设计既能保证隐私保护,又能保持生成效果和模型性能的生成式AI,正成为该领域的前沿研究方向。 课题挑战: 1、隐私泄露风险:生成式AI模型的训练依赖于大量的数据,尤其是在自然语言处理和图像生成领域。训练过程中,模型可能会记忆训练数据的某些特定信息,这些信息可能会被生成模型复现。举例来说,GPT类语言模型可能会无意间生成包含训练数据中某个人身份信息、地址或其他敏感数据的文本。如何确保生成模型不会泄露这些信息,成为隐私保护中的一大挑战; 2、数据扰动与模型质量:为了防止隐私泄露,常用的隐私保护技术(如差分隐私)通常需要对训练数据进行扰动或噪声注入。然而,这种扰动可能导致生成模型失去对数据的精确建模能力,从而影响生成内容的质量。尤其在生成任务中,模型的质量直接决定了输出内容的实用性和创造性,因此,如何在保护隐私的同时,尽可能地保持生成结果的高质量,是一个亟需解决的问题; 3、模型的“记忆”与“复用”问题:生成式AI模型通过学习大量的数据来建立生成规则,但是它们也可能在训练过程中“记住”数据的细节。这个问题在某些情况下可能表现为“记忆泄露”,即模型输出内容可能无意间重现训练集中的某些特定片段,尤其是在小样本或高敏感度的数据集上。如何防止生成式AI模型“记忆”并复用具体的个人信息,而只是学习到数据的“规律”或“特征”,是设计隐私保护机制时必须要考虑的重要问题; 4、合规性与跨境数据流动:各国对隐私保护有不同的法律规定,例如GDPR、CCPA等都对如何处理和传输个人数据提出了严格要求。对于跨境数据流动,如何确保在进行生成式AI训练时遵守不同地区的数据隐私法规,特别是在涉及敏感个人信息时,成为了一个复杂的法律和技术挑战。此外,生成式模型可能涉及多个数据源和多个国家的用户数据,如何在这些环境下平衡隐私保护与合规性,也是值得关注的问题; 5、生成内容的透明性与可解释性:尽管生成式AI模型的生成能力令人惊叹,但它们往往缺乏足够的透明性,导致用户难以理解生成结果背后的原因。在隐私保护背景下,如何使生成模型具备更好的可解释性,能够让用户理解模型是如何生成特定内容的,且该内容是否涉及隐私信息,是增强用户信任的关键。这一挑战不仅仅是技术问题,也是伦理和社会问题。

更新于 2025-05-19
logo of bytedance
社招5年以上A120397A

1、对人工智能特有的安全威胁进行深入研究,包括对抗性攻击、模型篡改以及数据隐私问题; 2、制定并实施策略,以检测和缓解自然语言处理、计算机视觉及其他机器学习等各个领域中的人工智能安全漏洞; 3、与跨职能团队协作,将人工智能安全措施整合到现有和新产品中; 4、紧跟人工智能安全领域的最新趋势和进展,参加相关会议并与更广泛的研究群体保持互动。

更新于 2025-04-30
logo of bytedance
校招A150376

团队介绍:字节跳动安全与风控-Flow部门,负责Flow业务中大模型和生成式AI应用如豆包、Cici、扣子等的安全保障工作。团队为业务面临的数据安全、用户隐私挑战、新兴大模型攻击方式等安全隐患提供创新的防御能力和解决方案,我们在北京、杭州、深圳、美国均设有安全研发中心,团队和业务正处于快速发展期,成长空间大,欢迎各位同学加入。 课题背景: 当前大规模基础模型在自然语言处理、多模态识别、代码生成和自主决策等领域已得到广泛应用,但其在带来技术革新的同时,也暴露出诸多安全与隐私隐患。基础模型可能遭受对抗攻击、Prompt Injection、数据投毒等威胁,并可能在训练过程中无意中记忆敏感信息而导致隐私泄露;与此同时,AI智能体在自动化任务和自主决策中面临动态环境下的安全监控和防御难题;而代码生成模型则因生成的代码可能存在漏洞、隐蔽后门以及敏感信息泄露问题,使得其在软件开发中的应用风险加剧。 课题挑战: 大模型安全和隐私研究面临的主要挑战包括:一是基础模型规模巨大、结构复杂且具黑箱特性,使得安全漏洞难以全面识别与修复,并在对抗攻击、数据投毒等情况下防护不足;二是AI Agent在不断变化的环境中需要实现实时监控、异常行为检测和自适应防御,其安全保障机制亟待突破;三是代码生成模型在自动化编程中缺乏完善的安全评估与漏洞修复工具,容易被对抗性攻击诱导生成恶意代码或泄露敏感数据。

更新于 2025-05-21