阿里云研究型实习生-AI for Drug
任职要求
1、具备AI相关技术经验与实践,同时熟悉生物分子的物理化学过程; 2、具备AI模型训练和优化经验,熟悉主流的机器学习训练和推理框架,有较强的编码能力,掌握高效的分布式训练框架和策略; 3、具备良好的科研创新能力,具备良好的沟通协作能力和跨学科跨团队合作意识。 最终的研究成果可能会包含: 1、顶级科学类杂志(CNS及子刊)发表文章 2、技术专利,潜在药物知识产权产出 3、算法原型,基于上面的关键技术,探索新算法,同时搭建算法平台,为后期大规模服务化打下基础
工作职责
创新药等化合物的研制是非常困难且经济和时间花费都非常大的过程。近几年随着人工智能技术的快速发展,能够通过大量的数据对复杂的分子结构进行精准建模和预测,这一结果可以大大的帮助药物等化合物的研发提效,同时也为这一领域带来的新的机会。化合物的研发是一个系统性工作,结构预测是其中的重要一环,但还有几个重要且有趣的问题还没有被完全攻克。我们针对这一领域的其它三个重要问题进行探索研究和落地研发: 1、分子间的结合对接(docking)预测,这一问题要预测多个分子或化合物能够进行物理化学上的结合,准确的对接预测; 2、化合物的演化(directed evolution),这一问题要精准模拟合物的变种和筛选过程,通过智能化的手段来加速实验室条件下的化合物进化过程; 3、序列生成(reverse sequencing),这一问题是蛋白质结构预测的反问题,是通过一个已知的3维结构来生成蛋白序列,也可以通过生成式的模型来生成全新的蛋白质结构。 我们希望通过深入的研究探索智能技术在生命科学的结合点,推动变革这一行业的规则
创新药等化合物的研制是非常困难且经济和时间花费都非常大的过程。近几年随着机器学习的快速发展,能够通过大量的数据对复杂的分子结构进行精准建模和预测,这一结果可以大大的帮助药物等化合物的研发提效,同时也为这一领域带来的新的机会。化合物的研发是一个系统性工作,结构预测是其中的重要一环,但还有几个重要且有趣的问题还没有被完全攻克。我们针对这一领域的其它三个重要问题进行探索研究和落地研发: 1、分子间的结合对接(docking)预测,这一问题要预测多个分子或化合物能够进行物理化学上的结合,准确的对接预测; 2、化合物的演化(directed evolution),这一问题要精准模拟合物的变种和筛选过程,通过智能化的手段来加速实验室条件下的化合物进化过程; 3、序列生成(reverse sequencing),这一问题是蛋白质结构预测的反问题,是通过一个已知的3维结构来生成蛋白序列,也可以通过生成式的模型来生成全新的蛋白质结构。 我们希望通过深入的研究探索智能技术在生命科学的结合点,推动变革这一行业的规则。
我们是淘天集团淘宝用户算法团队,致力于通过外投广告、商品推荐、权益激励与消息触达等,全面提升淘宝用户的增长效率与长期价值。团队聚焦用户全生命周期管理,以算法驱动精细化运营,持续优化获客效率、增量GMV与用户LTV。 在权益策略场景中,传统模型面临选择性偏差、高噪声干扰、多场景异构等挑战,难以准确识别微弱增量信号。为此,我们正在构建下一代因果Transformer框架。 你将承担以下核心职责: 1. 增量建模与因果推断:深入解决观测数据中的选择偏差与时变混杂问题,基于淘天用户特征体系,提升权益效果的归因准确性; 2. 算法创新与模型研发:探索并设计基于因果推断Transformer的新型架构,设计提升微弱信号识别能力,推动CDUT等前沿模型落地;多场景协同建模:统一建模大促、日常、会员等多权益场景,实现跨场景知识迁移与泛化能力提升; 3. 前沿成果输出:在KDD、ICML、NeurIPS等顶级会议发表高水平论文,拓展因果推断与个性化营销领域的影响力; 4. 应用场景覆盖淘天多个权益体系,完成算法的线上应用及取得线上效果提升。 加入我们,你将参与最具挑战性的工业级因果推断课题,定义智能营销与用户增长的未来技术范式。
团队介绍:字节跳动基础架构团队主要负责公司云基础建设,支撑着字节跳动旗下多款APP产品,如抖音、今日头条、番茄小说、西瓜视频、飞书、剪映等,同时也负责支持火山引擎公有云业务。迄今为止,我们通过云技术管理着百万量级的服务器构成的超大数据中心;我们通过字节深度优化的Kubernetes管理超过千万容器实例支持10万+微服务;我们还通过丰富的存储产品矩阵,如NewSQL、NoSQL、云存储等治理EB级的数据资产;我们积极拥抱开源和创新的软硬件架构,致力于构建业界领先的云基础设施,为整个公司的业务和客户发展保驾护航。我们热切期待对技术有追求、对大型系统有深刻见解的同学加入基础架构团队一起构建基础设施系统。 课题介绍: 课题背景: 在大语言模型蓬勃发展的当下,本课题聚焦于智能云基础设施与数据处理关键技术的多维度研究,旨在全面提升云服务在 AI 场景下的综合性能与效率。 课题挑战: 1、新一代搜索型数据库:当前产业界广泛应用的ElasticSearch面临数据与用户需求的深刻变革。需实现语义检索升级,突破关键词匹配限制,以满足学术研究等领域对语义理解和精准检索的要求;具备处理和融合多模态数据的能力,应对互联网图像、音视频多模态数据的爆发式增长;优化检索过程,更好地支持检索增强生成(RAG)技术,为语言模型提供优质信息;同时,需应对各行业海量数据存储检索压力,提升搜索实时性与跨语言能力; 2、面向LLM的下一代智能云基础架构:一方面,自动化和智能化管理基础架构各系统生命周期,深度融合人工智能与基础架构关键系统,建设大规模LLM for Infra 服务;另一方面,针对新涌现的LLM应用场景,在基础架构各个领域进行前沿技术创新,与字节工程团队合作,设计和开发高性价比且简单易用的下一代大模型基础架构,为火山引擎奠定技术与业务增长基础; 3、面向 AI 场景的serverless高性能弹性文件系统关键技术研究:大模型时代数据量爆炸式增长,当前文件系统多采用中心化元数据架构,难以水平扩展,限制文件系统规模及元数据性能。本研究将围绕元数据扩展性、与大模型深度结合提供Data Insight、设计高性能元数据单机引擎、实现任意目录快照、融合文件系统和对象存储元数据、内存加速、提供QoS(性能租户隔离和目录隔离)、故障处理(故障域隔离和故障无损)以及研发高性能客户端(用户态文件协议和DPU卸载)等关键技术展开; 4、面向大规模AI集群的高速通信和稳定性优化:随着大模型训练/推理业务规模增长,底层高速网络面临挑战。一方面,需解决GPU服务器硬件资源利用率偏低问题,包括充分利用CPU和内存空闲资源,以及研发计算通信融合的高性能集合通信库,实现通信算子与计算任务的深度融合;另一方面,在稳定性方面,提升故障快速发现和根因定位能力,解决网络吞吐不达预期等典型故障。
团队介绍:字节跳动基础架构团队主要负责公司云基础建设,支撑着字节跳动旗下多款APP产品,如抖音、今日头条、番茄小说、西瓜视频、飞书、剪映等,同时也负责支持火山引擎公有云业务。迄今为止,我们通过云技术管理着百万量级的服务器构成的超大数据中心;我们通过字节深度优化的Kubernetes管理超过千万容器实例支持10万+微服务;我们还通过丰富的存储产品矩阵,如NewSQL、NoSQL、云存储等治理EB级的数据资产;我们积极拥抱开源和创新的软硬件架构,致力于构建业界领先的云基础设施,为整个公司的业务和客户发展保驾护航。我们热切期待对技术有追求、对大型系统有深刻见解的同学加入基础架构团队一起构建基础设施系统。 课题介绍: 课题背景: 在大语言模型蓬勃发展的当下,本课题聚焦于智能云基础设施与数据处理关键技术的多维度研究,旨在全面提升云服务在 AI 场景下的综合性能与效率。 课题挑战: 1、新一代搜索型数据库:当前产业界广泛应用的ElasticSearch面临数据与用户需求的深刻变革。需实现语义检索升级,突破关键词匹配限制,以满足学术研究等领域对语义理解和精准检索的要求;具备处理和融合多模态数据的能力,应对互联网图像、音视频多模态数据的爆发式增长;优化检索过程,更好地支持检索增强生成(RAG)技术,为语言模型提供优质信息;同时,需应对各行业海量数据存储检索压力,提升搜索实时性与跨语言能力; 2、面向LLM的下一代智能云基础架构:一方面,自动化和智能化管理基础架构各系统生命周期,深度融合人工智能与基础架构关键系统,建设大规模LLM for Infra 服务;另一方面,针对新涌现的LLM应用场景,在基础架构各个领域进行前沿技术创新,与字节工程团队合作,设计和开发高性价比且简单易用的下一代大模型基础架构,为火山引擎奠定技术与业务增长基础; 3、面向 AI 场景的serverless高性能弹性文件系统关键技术研究:大模型时代数据量爆炸式增长,当前文件系统多采用中心化元数据架构,难以水平扩展,限制文件系统规模及元数据性能。本研究将围绕元数据扩展性、与大模型深度结合提供Data Insight、设计高性能元数据单机引擎、实现任意目录快照、融合文件系统和对象存储元数据、内存加速、提供QoS(性能租户隔离和目录隔离)、故障处理(故障域隔离和故障无损)以及研发高性能客户端(用户态文件协议和DPU卸载)等关键技术展开; 4、面向大规模AI集群的高速通信和稳定性优化:随着大模型训练/推理业务规模增长,底层高速网络面临挑战。一方面,需解决GPU服务器硬件资源利用率偏低问题,包括充分利用CPU和内存空闲资源,以及研发计算通信融合的高性能集合通信库,实现通信算子与计算任务的深度融合;另一方面,在稳定性方面,提升故障快速发现和根因定位能力,解决网络吞吐不达预期等典型故障。