高德地图机器学习算法实习生-APP平台业务中心
任职要求
1、计算机、电子信息工程、自动化控制、数学、信息安全等相关专业,211/985研究生在读 2、具备以下一个或多个方向的研究和应用经验,如时序预测模型、树模型、图神经网络、强化学习、多模态大模型、迁移学习等,在NIPS/ICML/ICLR/CVPR/KDD/AAAI等顶会顶级会议或者期刊发表论文者优先考虑; 3、具备扎实的Python、C++或者Java等编程基础,熟悉主流深度学习工具TensorFlow/PyTorch等; 4、有良好的数据敏感性和逻辑推理能力,较好的学习和沟通能力,对业界新技术敏感、喜欢钻研,具备熟练的英文读写能力; 5、加分项:Kaggle等数据科学竞赛的优胜经历、ACM编程竞赛获奖经历等; 6、希望可以连续实习至少5个月以上。
工作职责
我们团队是国内理论与应用实践相结合、应用算法创新的顶尖团队,负责高德核心的路线规划、ETA、路况预测等业务的算法优化;这里是国内交通出行领域探索前沿算法解决出行方案的最佳阵地,期待算法精英的加入! 具体职责包括但不限于: 参与高德导航核心算法的研发和优化,通过大规模机器学习、深度学习、图推理、多模态大模型、强化学习等技术,为路线规划、到达时间预估、未来出行建议、停车场动态信息识别、停车场智能推荐等重要场景提供解决方案,不断强化和提升用户使用高德导航过程中的产品体验。
团队介绍:字节跳动基础架构团队主要负责公司云基础建设,支撑着字节跳动旗下多款APP产品,如抖音、今日头条、番茄小说、西瓜视频、飞书、剪映等,同时也负责支持火山引擎公有云业务。迄今为止,我们通过云技术管理着百万量级的服务器构成的超大数据中心;我们通过字节深度优化的Kubernetes管理超过千万容器实例支持10万+微服务;我们还通过丰富的存储产品矩阵,如NewSQL、NoSQL、云存储等治理EB级的数据资产;我们积极拥抱开源和创新的软硬件架构,致力于构建业界领先的云基础设施,为整个公司的业务和客户发展保驾护航。我们热切期待对技术有追求、对大型系统有深刻见解的同学加入基础架构团队一起构建基础设施系统。 课题介绍: 课题背景: 在大语言模型蓬勃发展的当下,本课题聚焦于智能云基础设施与数据处理关键技术的多维度研究,旨在全面提升云服务在 AI 场景下的综合性能与效率。 课题挑战: 1、新一代搜索型数据库:当前产业界广泛应用的ElasticSearch面临数据与用户需求的深刻变革。需实现语义检索升级,突破关键词匹配限制,以满足学术研究等领域对语义理解和精准检索的要求;具备处理和融合多模态数据的能力,应对互联网图像、音视频多模态数据的爆发式增长;优化检索过程,更好地支持检索增强生成(RAG)技术,为语言模型提供优质信息;同时,需应对各行业海量数据存储检索压力,提升搜索实时性与跨语言能力; 2、面向LLM的下一代智能云基础架构:一方面,自动化和智能化管理基础架构各系统生命周期,深度融合人工智能与基础架构关键系统,建设大规模工业级Self-Driving Infra平台;另一方面,针对新涌现的LLM应用场景,在基础架构各个领域进行前沿技术创新,与字节工程团队合作,设计和开发高性价比且简单易用的下一代大模型基础架构,为火山引擎奠定技术与业务增长基础; 3、面向 AI 场景的serverless高性能弹性文件系统关键技术研究:大模型时代数据量爆炸式增长,当前文件系统多采用中心化元数据架构,难以水平扩展,限制文件系统规模及元数据性能。本研究将围绕元数据扩展性、与大模型深度结合提供Data Insight、设计高性能元数据单机引擎、实现任意目录快照、融合文件系统和对象存储元数据、内存加速、提供QoS(性能租户隔离和目录隔离)、故障处理(故障域隔离和故障无损)以及研发高性能客户端(用户态文件协议和DPU卸载)等关键技术展开; 4、面向大规模AI集群的高速通信和稳定性优化:随着大模型训练/推理业务规模增长,底层高速网络面临挑战。一方面,需解决GPU服务器硬件资源利用率偏低问题,包括充分利用CPU和内存空闲资源,以及研发计算通信融合的高性能集合通信库,实现通信算子与计算任务的深度融合;另一方面,在稳定性方面,提升故障快速发现和根因定位能力,解决网络吞吐不达预期等典型故障。
1. 协助推动美团APP首页的核心算法优化迭代,包括但不限于召回、排序相关的海量数据分析挖掘、超大规模深度学习实战、业界前沿技术探索等等,为数亿量级美团用户服务; 2. 协助完成美团推荐大模型的落地;
日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。 豆包大模型团队在AI领域拥有长期愿景与决心,研究方向涵盖NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。目前,豆包APP已成为中国市场用户量最大的AIGC应用。 1、研究大语言模型RLHF阶段的广义强化算法,提升大模型的能力,探索大模型的自我进化之路; 2、研究大模型驱动的智能体算法,包括但是不局限于ReACT, Voyager, WebGPT, AutoGPT; 3、撰写技术报告和论文,分享研究成果,参与内外部的技术交流和合作。
团队介绍:Data-抖音团队,负责抖音APP的推荐算法、内容算法、对话算法及大数据工作,对接各场景业务(短视频,直播,图文,电商,社交,生态,投稿,消息,同城,生活服务,音乐,评论,内容理解&安全、智能对话等)。我们的工作涉及大规模推荐算法的优化、复杂约束的优化问题的解决、内容理解、LLM应用以及新业务方向探索、CV/NLP等多个学术领域的算法改进工作、对多种场景的推荐架构的设计和实现和对产品数据的复杂深入的分析工作。在这里,你可以深入钻研机器学习算法的改进和优化,探索工业界最领先的推荐系统架构和推荐大模型算法、可以通过使用最新的大模型等技术支持抖音的数字人、智能客服、AI工具等创新探索;可以通过对产品的深度理解和思考,将算法应用到业务中去;也可以通过对产品和内容生态的深度分析,影响产品未来的发展方向。 课题介绍: 抖音作为全球领先的综合性内容平台,拥有庞大的用户群体和多元化的业务生态。在设计如此大规模的推荐系统时,面临社交网络复杂、电商用户兴趣跨域迁移困难、内容与用户冷启动样本稀疏、直播推荐多目标融合效能不足、兴趣重复密集探索不足等多重挑战。 具体表现为:用户社交网络规模达万亿级,传统图算法难以高效地建模动态社交行为与内容消费的耦合关系;用户从内容兴趣到电商兴趣的迁移依赖跨域多模态理解与动态映射,现有方法难以捕捉潜在电商转化信号;新内容和新低活用户冷启动阶段样本量少,传统协同过滤与内容推荐方法泛化能力弱;直播推荐需实时融合点击、互动、消费等多目标信号,但启发式规则难以平衡用户长期体验与短期价值;兴趣密集追打问题严重,新兴趣探索效率不高。 研究方向: 1、社交网络增强的跨域兴趣建模:结合图神经网络(GNN)与大语言模型(LLM),构建用户全生命周期行为图谱,融合社交关系、内容互动与电商行为,挖掘社交网络中的社团结构与跨域兴趣传播路径; 2、兴趣迁移与转化信号捕捉:通过跨域对比学习与对抗生成技术,构建内容兴趣到电商兴趣的隐式映射网络,结合强化学习动态调控探索与利用,兼顾推荐精准性与多样性; 3、多模态小样本冷启动优化:利用LLM的Few-shot推理能力,通过内容语义理解与外部知识增强,设计元学习框架实现新ID特征与泛化特征的联合表征,缓解冷启动数据稀疏问题; 4、多目标融合与长短期价值平衡:基于大模型的泛化能力与长上下文感知,统一建模直播多目标(点击、时长、打赏等)的分布偏差与动态权重,设计个性化融合策略,替代传统多阶段漏斗架构,提升实时推荐效率; 5、兴趣密集与兴趣探索:通过用户兴趣画像建模与强化学习技术,实时捕捉用户消费与兴趣变化,缓解兴趣密集问题,为用户探索新的兴趣。