logo of horizon

地平线世界模型算法实习生(实时交互方向)

实习兼职算法序列地点:北京 | 上海 | 香港状态:招聘

任职要求


计算机、人工智能、自动化等相关专业硕士/博士在读。

1、具备扎实的深度学习基础,精通 PyTorch,拥有出色的工程实现与从零搭建复杂模型架构的能力。

2、深入理解 Diffusion Models、Autoregressive Models 等生成范式,对视频生成 / World Model 有丰富的实操经验。

3、敏锐的学术嗅觉与极强的自驱力,能够快速阅读英文文献…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


【岗位职责】

1、根据个人技术背景与兴趣,你将重点参与并攻坚以下一项或多项核心工作,完成核心算法的优化探索,并在指导下冲击顶级学术会议(CVPR / ICCV / NeurIPS / ICLR 等):

 
2、长时序生成: 深入探索实时可交互视频生成范式,参考并改进Self-forcing, Helios 等前沿架构,突破超长时序环境生成的质量和一致性瓶颈。
 
3、实时交互与加速: 研究并应用 DMD2 等前沿模型蒸馏与加速算法,大幅降低视频生成延迟,实现毫秒级的基于动作(Action-conditioned)的闭环环境响应。
 
4、通用视觉表征构建: 负责 VAE 等底层表征模型的探索与深度优化,大幅提升图像/视频特征的重建质量与时空压缩率,为世界模型构建高保真、强泛化性的通用视觉表征。
 
5、架构设计与优化: 参与交互式世界模型的底层架构设计、模型训练与工程优化,支持自动驾驶端到端算法的仿真验证。
包括英文材料
深度学习+
PyTorch+
还有更多 •••
相关职位

logo of ztgame
实习实习生

聚焦探索实时可交互视频生成方向,产出高水平学术成果与影响力技术落地。 专项课题: 研究方向一:实时视频生成范式探索 1. 实时视频生成范式的探索,系统性验证AR或AR+Diffusion视频生成方案; 2. 尝试垂直领域AR生成范式和AR生成范式在数据上的scaling law和智能涌现能力; 3. DiT视频生成效率提升,包括但不限高效率、低精度损失、高压缩比的视频VAE和tokenizer、包括稀疏架构、MoE等DiT结构探索。 研究方向二:长视频生成的一致性保持 1.DIT范式,AR范式 和 AR + DiT范式下的视频生成记忆框架实现与调研,包括但不限于3D 世界模型表征记忆,预测帧缓存与重用机制 和 用户状态与意图记忆等; 2.基于隐式视觉记忆机制(跨时间追踪关键环境状态),探索无需显式3D建模的动态场景表征,支持对场景物体、光照、环境的长期记忆存储与检索。

更新于 2025-08-13上海
logo of bytedance
实习A106762

团队介绍:广告业务原为商业产品与技术部门,为抖音集团的商业变现提供广告产品与技术,负责端到端大型广告系统建设,覆盖抖音、今日头条、西瓜视频、番茄小说、穿山甲等产品矩阵,践行“激发生意新可能”理念,致力于让营销更省心、更高效、更美好,推动商业的可持续增长,让不分体量、地域的企业及个体,都能通过数字化技术激发创造、驱动生意。连接广告主、用户及生态伙伴、成为开放共赢的全球最佳智能营销平台之一。在这里,你将投身建设面向未来的数字营销能力,接触到全球先进的商业产品架构、模型和算法,在互联网广告行业始终创新。 课题背景 在广告营销领域,智能客服系统正成为优化售前用户沟通的关键工具,商家亟需高效工具来减少人工依赖、提升转化效率。背景核心在于:广告营销的售前场景涉及复杂用户交互(如产品咨询、促销引导和留资获取),当前基于 LLM 的智能客服 Agent 系统采用 “规划 + 生成” 的架构,需完成从用户进线、诉求澄清到方案执行的全流程服务。然而,随着广告市场的动态变化和个性化需求增长,传统方法面临响应相关性不足、转化率瓶颈等问题。团队正聚焦于利用 LLM 后训练技术(如微调和强化学习),结合 RAG、CoT 蒸馏等手段,构建一套高适配性的 Agent 系统,以实现智能化用户沟通 —— 帮助商家自动促成订单或获取高质量线索,最终提升广告营销的 ROI 和用户体验。这一方向不仅是业务增长的核心驱动力,也是推动大模型在广告领域落地的关键创新。 课题挑战 本课题面临多重技术与业务挑战,需要人才在 LLM-Agent 架构下突破瓶颈,确保智能客服在广告营销场景中的高可靠性、高效性和合规性。具体挑战包括: 1)对话流程控制:售前咨询需通过多轮交互引导用户留资或促成订单,亟需优化 Agent 的决策能力。这要求强化planning的识别能力和action选择的准确性,需要引入 SOP 构建、CoT蒸馏、react与反思机制等,实现上下文一致性与业务目标达成。另外也需要构建合理的reward指标,应用DPO/RL等手段进一步提升模型决策能力; 2)回复质量与幻觉:售前咨询的回复模型需要在少量标注数据下产出高质量的训练数据,应用大模型微调SFT、CoT蒸馏提升在各个行业上的话术质量和回复满意度。应用RAG、知识图谱等能力构建高质量知识库,在线时通过精确知识点匹配解决冷启动与幻觉问题,提升用户体验; 3)个性化问题:目前传统智能客服对于不同用户的接待基本都是相同的,售前客服需要考虑不同用户的兴趣点,通过引入用户特征、构建长期memory等手段,为用户构建定制化的接待方案,提高用户满意度并促成留资或者订单等业务指标提升; 4)实时性能瓶颈:系统需处理高并发请求,但大模型的推理延迟和资源消耗可能影响用户体验。这要求研究模型压缩、量化技术、推理模型的cot加速等方向以优化部署效率。 研究方向:大语言模型。

更新于 2025-06-13北京
logo of bytedance
实习A135008

团队介绍:广告业务原为商业产品与技术部门,为抖音集团的商业变现提供广告产品与技术,负责端到端大型广告系统建设,覆盖抖音、今日头条、西瓜视频、番茄小说、穿山甲等产品矩阵,践行“激发生意新可能”理念,致力于让营销更省心、更高效、更美好,推动商业的可持续增长,让不分体量、地域的企业及个体,都能通过数字化技术激发创造、驱动生意。连接广告主、用户及生态伙伴、成为开放共赢的全球最佳智能营销平台之一。在这里,你将投身建设面向未来的数字营销能力,接触到全球先进的商业产品架构、模型和算法,在互联网广告行业始终创新。 课题背景 在广告营销领域,智能客服系统正成为优化售前用户沟通的关键工具,商家亟需高效工具来减少人工依赖、提升转化效率。背景核心在于:广告营销的售前场景涉及复杂用户交互(如产品咨询、促销引导和留资获取),当前基于 LLM 的智能客服 Agent 系统采用 “规划 + 生成” 的架构,需完成从用户进线、诉求澄清到方案执行的全流程服务。然而,随着广告市场的动态变化和个性化需求增长,传统方法面临响应相关性不足、转化率瓶颈等问题。团队正聚焦于利用 LLM 后训练技术(如微调和强化学习),结合 RAG、CoT 蒸馏等手段,构建一套高适配性的 Agent 系统,以实现智能化用户沟通 —— 帮助商家自动促成订单或获取高质量线索,最终提升广告营销的 ROI 和用户体验。这一方向不仅是业务增长的核心驱动力,也是推动大模型在广告领域落地的关键创新。 课题挑战 本课题面临多重技术与业务挑战,需要人才在 LLM-Agent 架构下突破瓶颈,确保智能客服在广告营销场景中的高可靠性、高效性和合规性。具体挑战包括: 1)对话流程控制:售前咨询需通过多轮交互引导用户留资或促成订单,亟需优化 Agent 的决策能力。这要求强化planning的识别能力和action选择的准确性,需要引入 SOP 构建、CoT蒸馏、react与反思机制等,实现上下文一致性与业务目标达成。另外也需要构建合理的reward指标,应用DPO/RL等手段进一步提升模型决策能力; 2)回复质量与幻觉:售前咨询的回复模型需要在少量标注数据下产出高质量的训练数据,应用大模型微调SFT、CoT蒸馏提升在各个行业上的话术质量和回复满意度。应用RAG、知识图谱等能力构建高质量知识库,在线时通过精确知识点匹配解决冷启动与幻觉问题,提升用户体验; 3)个性化问题:目前传统智能客服对于不同用户的接待基本都是相同的,售前客服需要考虑不同用户的兴趣点,通过引入用户特征、构建长期memory等手段,为用户构建定制化的接待方案,提高用户满意度并促成留资或者订单等业务指标提升; 4)实时性能瓶颈:系统需处理高并发请求,但大模型的推理延迟和资源消耗可能影响用户体验。这要求研究模型压缩、量化技术、推理模型的cot加速等方向以优化部署效率。 研究方向:大语言模型。

更新于 2025-06-13上海
logo of meituan
实习核心本地商业-美

你将深度参与以下模块的设计、验证和优化: [1] 感知:让 Agent 理解复杂多变的用户界面,将海量的、异构的、实时的场景信息高效可靠地转化为结构化的 item。 [2] 记忆:让 Agent 拥有仿生的长短期记忆,通过多路召回等策略,组合聊天历史、用户画像和召回结果,为Agent 的每一次决策提供最关键的上下文。 [3] 决策: 构建自主的 Agentic Workflows,让 Agent 学会在恰当的时机,以恰当的方式与用户交互。 此外,你还需要参与建立一套自动化的、数据驱动的评测框架,用于客观、全面地衡量Agent在真实世界任务中的表现,驱动工程策略的快速迭代。

更新于 2025-08-05北京