字节跳动生物分子结构大模型算法研究员-Seed
任职要求
1、机器学习、计算化学、计算生物、CADD/AIDD等专业,在机器学习顶会或高影响力期刊发表过高质量研究成果优先; 2、熟练掌握Python编程语言和PyTorch框架,具备扎实的编程基础和良好的编程习惯; 3、优秀的分析和解决问题的能力,面对复杂实际问题能够提出合理假设、快速验证并推进解决; 4、良好的沟通和团队合作能力,认真负责的工作态度。
工作职责
1、加入背景多元的研究团队,和机器学习、计算化学、计算生物等领域的团队成员密切配合,通过合作来追求突破性的研究成果; 2、参与构建和优化覆盖全生物分子类型的复合物结构预测模型,共同定义和开发下一代模型; 3、以复合物结构预测模型为基础,进一步解决多构象和动态预测、亲和力预测、生物分子设计等挑战性问题; 4、基于深度学习和计算生物领域新的研究成果,设计高可扩展的模型架构和更优的生成算法,结合生物领域洞察、数据驱动和物理先验提升效果。
日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:科学计算团队成员来自于机器学习、分子动力学模拟、量子化学、计算材料、高性能计算等领域,我们结合深度学习、计算化学、高通量计算等手段,探索解决生物、物理、材料等自然科学领域的挑战性难题,也在实际应用中证明价值。 我们重点关注生物、材料领域,解决其中的挑战性难题: - 探索前沿的分子动力学模拟、增强采样、自由能和其他性质计算方法,并规模化应用在药物和材料发现中; - 覆盖多样的生物、材料体系的经验力场和机器学习力场,结合实验数据和大量高精度量子化学数据,解决复杂体系的精确模拟和性质预测问题; - 构建生物场景蛋白、核酸、有机小分子等体系的通用模型,解决结构预测、构象生成、性质预测、分子生成等问题; - 结合大语言模型和多模态能力,解决生物、材料领域的实际挑战; - 开发高效的DFT计算框架,解决复杂体系的量化计算问题。 1、加入背景多元的研究团队,和机器学习、计算化学、计算生物等领域的团队成员密切配合,通过合作来追求突破性的研究成果; 2、参与构建和优化覆盖全生物分子类型的复合物结构预测模型,共同定义和开发下一代模型; 3、以复合物结构预测模型为基础,进一步解决多构象和动态预测、亲和力预测、生物分子设计等挑战性问题; 4、基于深度学习和计算生物领域新的研究成果,设计高可扩展的模型架构和更优的生成算法,结合生物领域洞察、数据驱动和物理先验提升效果。
团队介绍:字节跳动ByteDance Research专注于人工智能领域的前沿技术研究,涵盖了机器翻译、视频理解基础模型、机器人研究、机器学习公平性、量子化学、AI 制药、分子动力学等多技术研究领域,同时致力于将研究成果落地,为公司现有的产品和业务提供核心技术支持和服务。 课题介绍: 我们利用Al技术进行药物的自动发现和设计,大幅降低药物开发的成本,推动药物开发的范式转移。主要利用深度学习进行大分子药物的设计。 领域优势:团队在生成式蛋白质设计、蛋白质构象预测以及冷冻电镜解析等领域取得了业界瞩目的成果。 在生成式蛋白质设计方面,团队研发了基于大规模蛋白质语言模型的序列设计方法LM-Design,大幅提高了蛋白质序列设计的准确度与效率;研发了结合扩散模型与语言模型的新一代蛋白质基础模型DPLM和DPLM-2,首次全面统一了蛋白质序列和结构的联合建模、理解与生成;研发了基于偏好优化的抗体设计方法AbDPO,能够设计出同时满足多种性质和能量要求的抗体。在蛋白质动态构象预测方面,团队研发了ConfDiff等模型,准确预测了蛋白质的构象变化,加深了对蛋白质生物过程的理解,还为新药研发提供了可靠的理论基础。冷冻电镜解析方面,团队研发了CryoSTAR电镜解析工具和CryoFM冷冻电镜基础模型,结合人工智能技术和高分辨率成像,极大地提升了生物大分子结构解析的速度和精度。这一技术有助于揭示复杂生物分子体系的构象特征和动态变化,为药物靶点的发现与设计提供了强有力的支持。 团队的研究成果多次发表在ICML、NeurIPS、ICLR等顶级学术会议上,得到学术界和业界的广泛认可。 1、开发自然科学的基础大模型,用于蛋白质结构预测、分子构象生成和蛋白质设计; 2、利用公共基准和数据库评估新的AI/ML方法; 3、与多学科团队密切合作,将创新算法应用于解决前沿挑战。
日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:科学计算团队成员来自于机器学习、分子动力学模拟、量子化学、计算材料、高性能计算等领域,我们结合深度学习、计算化学、高通量计算等手段,探索解决生物、物理、材料等自然科学领域的挑战性难题,也在实际应用中证明价值。 我们重点关注生物、材料领域,解决其中的挑战性难题: - 探索前沿的分子动力学模拟、增强采样、自由能和其他性质计算方法,并规模化应用在药物和材料发现中; - 覆盖多样的生物、材料体系的经验力场和机器学习力场,结合实验数据和大量高精度量子化学数据,解决复杂体系的精确模拟和性质预测问题; - 构建生物场景蛋白、核酸、有机小分子等体系的通用模型,解决结构预测、构象生成、性质预测、分子生成等问题; - 结合大语言模型和多模态能力,解决生物、材料领域的实际挑战; - 开发高效的DFT计算框架,解决复杂体系的量化计算问题。 课题介绍:随着计算能力的指数级增长,分子动力学、量子化学、深度学习和大语言模型的融合加速,推动了科学研究范式的突破。分子动力学结合量子化学与机器学习,在药物与材料领域展现出强大潜力;蛋白质语言模型利用大规模序列与结构数据,提升蛋白质建模、功能预测、构象预测及生成式设计的效率与准确性。同时,深度学习通过架构、数据和适用体系的扩展(Scaling),在复合物结构预测、蛋白与药物设计等问题上发挥越来越重要的作用,帮助解决过去难以克服的复杂科学挑战。此外,量子化学结合深度学习、量子嵌入与量子计算,实现多电子系统的精确建模,推动新一代物理化学技术的发展。这些创新不仅带来了理论突破,也在药物与材料研发等实际应用中展现出巨大价值。 结构是理解生命过程与实现药物理性设计的关键基础。我们致力于构建以结构为中心的多模态生物分子基础模型,采用统一架构支撑复合物结构预测、功能建模与分子设计等关键任务。依托紧密的团队协作,我们融合机器学习、结构生物学、计算化学与CADD等多学科方法,结合强大的计算资源与工程化能力,构建高精度、具备泛化能力的生物分子基础模型,推动领域实现突破性进展。 1、加入背景多元的研究团队,和机器学习、计算化学、计算生物等领域的团队成员密切配合,通过团队合作来追求重量级成果; 2、参与构建和优化覆盖全生物分子类型的复合物结构预测模型,共同定义和开发下一代复合物结构预测模型; 3、跟踪研究领域的最新进展,与团队共同建立广泛深入的专业认知; 4、通过广泛合作验证和推广计算工具,创造学术与社会价值。
创新药等化合物的研制是非常困难且经济和时间花费都非常大的过程。近几年随着人工智能技术的快速发展,能够通过大量的数据对复杂的分子结构进行精准建模和预测,这一结果可以大大的帮助药物等化合物的研发提效,同时也为这一领域带来的新的机会。化合物的研发是一个系统性工作,结构预测是其中的重要一环,但还有几个重要且有趣的问题还没有被完全攻克。我们针对这一领域的其它三个重要问题进行探索研究和落地研发: 1、分子间的结合对接(docking)预测,这一问题要预测多个分子或化合物能够进行物理化学上的结合,准确的对接预测; 2、化合物的演化(directed evolution),这一问题要精准模拟合物的变种和筛选过程,通过智能化的手段来加速实验室条件下的化合物进化过程; 3、序列生成(reverse sequencing),这一问题是蛋白质结构预测的反问题,是通过一个已知的3维结构来生成蛋白序列,也可以通过生成式的模型来生成全新的蛋白质结构。 我们希望通过深入的研究探索智能技术在生命科学的结合点,推动变革这一行业的规则