字节跳动算法实习生-搜索
任职要求
1、2027届本科及以上学历在读,计算机、软件工程等相关专业优先; 2、出色的分析问题、解决问题能力,可以从纷繁复杂的数据中看出问题的本质; 3、良好的机器学习(Deep Learning)、NLP和…
工作职责
ByteIntern:面向2027届毕业生(2026年9月-2027年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:字节跳动搜索团队主要负责抖音、国际化短视频、今日头条、红果短剧、番茄小说、AI搜索等产品以及电商、生活服务等业务的搜索算法创新和架构研发工作。 我们使用前沿的机器学习\大模型技术进行端到端建模并不断创新突破,同时专注于分布式系统、机器学习系统的构建和性能优化,从内存、Disk等优化到索引压缩、召回、排序等算法的探索,致力于支撑字节跳动持续多元化的产品创新和高速的业务增长、基于大模型革新和重塑下一代搜索技术体系,充分给同学们提供成长自我的机会。 主要工作方向包括: 1、探索前沿的NLP技术:全面基于LLM的Query分析、相关性、个性化预估、满意度评估、生成式检索等,全链路应用LLM/VLM,每个细节都充满挑战; 2、跨模态匹配技术:进行多模态预训练,在超大规模的多模态表征、匹配、生成等多个技术方向上持续突破,打造世界领先的多模态搜索系统; 3、大规模流式机器学习技术:应用大规模机器学习,解决搜索中的推荐问题,让搜索更加个性化更加懂你; 4、千亿级数据规模的架构:从大规模离线计算,分布式系统的性能、调度优化,到构建高可用、高吞吐和低延迟的在线服务的方方面面都有深入研究和创新; 5、推荐技术:基于超大规模机器学习、Causal Inference、大模型推理等技术手段,构建业界领先的搜索推荐系统,对搜索推荐技术进行探索和创新。
1、负责相关系统/模块的业务需求分析、设计、开发、上线和维护,如分布式文件系统、缓存系统、Key/Value存储系统、数据库、Linux操作系统和Java优化等; 2、参与高性能分布式服务端程序的系统设计,为菜鸟的产品提供强有力的后台支持,在海量的网络访问和数据处理中,设计并设施最强大的解决方案; 3、参与搜索引擎各个功能模块的设计和实现,构建高可靠性、高可用性、高可扩展性的体系结构,满足日趋复杂的业务需求; 4、参与海量数据处理和开发,通过sql、pl/sql、java进行etl程序开发,满足商业上对数据的开发需求。
【职位前言】 DeepSeek-R1的发布给世界带来了不小的震撼,更令人敬佩的是,无论是赶超OpenAI o1的模型效果,还是节省百万美元成本的工程优化,这背后的原理与实现都在官方发布的技术报告和开源项目中一一公开。 大语言模型的前沿研究将不再只是少数巨头才玩得起的项目,更多的研究者可以入局这场对人工智能探索的新征程。 如果您对模型背后的工程优化充满好奇(FP8混合精度训练、分布式专家并行等),想深入了解并上手实践,但又没有合适的计算资源与明确的优化目标,又对模型 post-training(GRPO强化学习、模型蒸馏等等)跃跃欲试,但又没有明确的应用场景和数据资源—— 那不妨来网易云音乐,和我们搭上这趟时代的列车,一起拆解硬核技术,聚焦于音乐业务中的搜索、推荐、广告场景,探索大模型的应用落地与高效部署。 【职位描述】 1、参与大模型在后训练和推理工程中的性能优化,结合底层硬件特性从混合精度训练、矩阵计算加速、注意力机制计算优化、GPU分布式并行等方面提升工程效率; 2、通过强化学习、模型蒸馏等方式,构建音乐领域具有 CoT 推理能力的大语言模型,应用于搜索、推荐、广告等业务场景。 【我们拥有】 1、音乐行业内海量用户独一无二的数据资源; 2、贴近实际的业务场景,让 idea 落地并发挥价值; 3、可观的计算资源,性能上还有极大的空间待与你一同挖掘; 4、鼓励创新探索、倡导悉心钻研、宽松融洽多元的团队氛围; 5、成果转换的支持,合作完成项目及论文,助力未来的职业发展。
我们是网易云音乐算法团队,专注于行业领先的搜推算法。我们通过技术赋能云音乐业务,提升用户体验,产生商业化价值。 在这里你可以: 1、接触到亿级别海量、真实的用户数据,使用深度学习、图模型、多资源多目标建模、LLM4Rec等算法,发挥算法技术的价值; 2、使用行业领先的大规模分布式机器学习平台,实现并不断优化推荐、搜索等算法; 3、探索落地各种创新的算法技术思想,转化为论文成果,或者支撑业务效率提升;
我们是网易云音乐算法团队,专注于行业领先的搜索或者推荐算法,我们致力于通过技术赋能云音乐各项业务,通过社区广场推荐,提升用户体验,产生商业化价值。 在这里你可以: 1、参与云音乐各场景相关的AIGC算法应用,使用NLP、多模态、LLM等技术,优化包括多模态内容理解、大模型交互式对话、大模型AI创作生成等业务应用的效果提升; 2、参与云音乐创新业务相关的算法优化,使用业界领先的深度学习、强化学习、图模型等,优化推荐、直播、声音、社交等业务的算法; 3、参与前沿的基础算法模型建设,包括继续预训练、视频生成微调,音乐生成训练等垂类基座模型的构建和应; 4、接触到亿级别海量、真实的用户数据,使用深度学习、强化学习、图模型等算法,发挥推荐的价值; 5、使用行业领先的大规模分布式机器学习平台,例如tensorflow等开源的工具,实现并不断优化推荐、搜索等算法。