菜鸟世界模型算法工程师
任职要求
1. 计算机 / 自动化 / 数学等相关专业,具备 自动驾驶 或 三维重建 领域项目经验; 2. (可选) 熟悉网格重建、3DGS、NeRF等三维重建方向的算法和框架; 3. (可选) 熟悉Diffusion、激光-视觉多模态等生成式模型算法和框架; 4. (可选) 熟悉光线追踪、模型检索等图形学算法。 5. 具备卓越的工程能力、技术致用的应用意识、在高水平学术期刊和会议上发表过自动驾驶和世界模型相关论文者优先。
工作职责
1. 负责自动驾驶世界模型、场景重建相关技术的研究和算法研发; 2. 参与世界模型在自动驾驶场景编辑、闭环仿真场景生成领域的算法研发,解决技术落地过程中的应用问题; 3. 跟进相关领域世界模型的前沿技术,保持技术行业领先。
1、负责机器人场景下的世界模型算法研发,构建能准确预测物理世界状态演变的AI系统; 2、开发基于强化学习的动态环境建模技术,实现机器人在复杂场景中的自主决策能力; 3、探索视频生成技术在环境模拟中的应用,构建高保真度的虚拟训练环境; 4、设计具身智能系统架构,实现AI模型与机器人本体的高效协同; 5、搭建工业级仿真测试平台,支持大规模并行化的模型训练与验证。
1.核心算法研发:负责三维重建、3DGS(三维高斯溅射)算法以及相关世界模型算法的设计、优化与实现,提升算法在三维重建中的精度、效率和稳定性,确保模型能够准确还原复杂场景细节; 2.项目实践应用:将三维重建,3DGS等算法算法应用于实际三维重建项目,如车道级数据视觉众包建图,自动驾驶场景重建、虚拟现实场景构建等,根据项目需求进行定制化开发,解决实际场景中的技术难题; 3.模型评估优化:建立有效的算法评估体系,运用指标分析、可视化等手段对三维重建结果进行评估,持续优化3DGS和世界模型算法,提升模型性能和重建效果,实现算法的迭代升级; 4.前沿技术探索:关注计算机视觉、三维重建领域的前沿技术发展,尤其是3DGS及相关技术的最新研究成果,对新算法、新技术进行调研、验证和应用,推动公司在该领域的技术创新。
通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 团队致力于实现理解生成一体化的世界模型,达成“交互”和“创造”两大目标。本方向专注于研发视觉生成技术的突破,其中研究内容包括但不限于:理解生成一体化、视觉生成等,充分探索相关数据及训练方法研究,以期解决计算机视觉基本问题的同时,为 AI 赋予创造力,理解世界及预测未来世界。 工作描述: 1. 下一代理解生成一体化的模型结构设计与研发,探索 Autoregressive LLM 、Diffusion、及两者结合的多种技术路线。 2. 研究及探索世界模型的多模态训练数据及对应训练策略。 3. 设计及研发自动化评估方法设计与实现,为模型研发提供科学指导。
团队介绍:字节跳动搜索团队主要负责抖音、国际化短视频、今日头条、西瓜视频等产品以及电商、生活服务等业务的搜索算法创新和架构研发工作。我们使用前沿的机器学习技术进行端到端建模并不断创新突破,同时专注于分布式系统、机器学习系统的构建和性能优化,从内存、Disk等优化到索引压缩、召回、排序等算法的探索,充分给同学们提供成长自我的机会。主要工作方向包括:1、探索前沿的NLP技术:从基础的分词、NER,文本、多模态预训练,到业务上的Query分析、基础相关性等,全链路应用深度学习模型,每个细节都充满挑战;2、跨模态匹配技术:在搜索中应用CV+NLP深度学习技术,实现多模态视频搜索强大的语义理解和检索能力;3、大规模流式机器学习技术:应用大规模机器学习,解决搜索中的推荐问题,让搜索更加个性化更加懂你;4、千亿级数据规模的架构:从大规模离线计算,分布式系统的性能、调度优化,到构建高可用、高吞吐和低延迟的在线服务的方方面面都有深入研究和创新;5、推荐技术:基于超大规模机器学习技术,构建业界领先的搜索推荐系统,对搜索推荐技术进行探索和创新。 课题介绍:随着大模型技术的快速发展,智能搜索领域迎来了新的机遇和挑战。传统搜索技术在面对海量数据、多模态信息以及用户复杂需求时,逐渐暴露出模型容量不足、语义理解能力有限、资源利用率低等问题。基于大模型的智能搜索构建旨在通过引入大模型技术,提升搜索系统的智能化水平,优化用户体验,并解决超大规模检索、复杂语义理解、资源高效利用等核心问题。具体目标包括: 1、探索大模型与排序算法的结合,提升个性化排序的精度和用户体验; 2、研究生成式检索算法,解决百亿乃至千亿级别候选库的超大规模检索问题; 3、利用大语言模型(LLM)提升复杂多义Query的搜索满意度。 1、参与搜索引擎(策略、模型)研发工作,支持抖音/今日头条/电商/番茄小说/红果短剧等具有数亿用户的产品,致力于为数亿用户提供数千亿精准搜索结果,打造极致的搜索体验; 2、探索前沿技术,探索大模型等创新技术在AI搜索场景的落地,参与搜索引擎、搜索大模型的改进,包括而不限于: 1)NLP、大模型:构建大规模高质量数据(数据建设、数据抓取与解析、数据合成等)、分词、NER,文本、多模态预训练、Query分析、基础相关性等,全链路结合应用机器学习/深度学习模型,探索搜索引擎与大模型、LLM、MLLM、多模态、机器学习、强化学习等前沿技术的结合,实现搜索引擎全链路革新并进行极致的系统优化,探索提升AI搜索引擎的能力,包含而不限于相关性、权威性、时效性、意图理解能力等;探索新的自然语言处理算法、信息检索技术、LLM适性索引、LLM相关性、生成式召回、排序大模型等,提高搜索引擎的准确性和智能化程度; 2)召回与排序:借助语义理解、个性化预估、机制设计等技术,解决超大规模的视频、商品、直播、POI等搜索业务下的召回、排序、重混排模型; 3)多模态、跨模态匹配技术:基于海量网页图文、抖音视频数据的大规模多模态预训练和视频分析技术,提升视觉搜索的使用体验;在搜索中结合CV+NLP深度学习技术,实现多模态、视频搜索、强大的语义理解和检索能力; 4)页面分析和摘要:从千亿视频/网页中提取最有价值的信息,进行结构化字段提取、智能摘要生成、转码等工作来优化搜索体验; 5)链接分析:从万亿链接中找出最有价值的网页,优化链接质量、索引质量、垃圾作弊识别、调度策略等。