小米数据闭环算法实习生
任职要求
1. 自然语言处理、计算机视觉、人工智能相关领域的硕士及以上学历; 2. 计算机基础扎实,熟悉数据结构与算法; 3. 有较强的学习能力、沟通能力、解决问题的能力; 4. 具有大语言模型、多模态大模型、生成式模型、世界模型等算法背景; 5. 具备扎实的研发功底,有在机器学…
工作职责
1.负责数据闭环相关业务的开发; 2.负责研发和微调云端大模型、用于实际的数据业务需求; 3.跟踪最新的自动驾驶、视觉语言大模型相关前沿技术,并进行技术调研;
1、深入跟踪不同项目、不同环节的用户操作流程,了解用户旅程,并定位效率问题; 2、完善智能体(AI Agent)的功能,迭代产品特性; 3、设计并执行用户访谈、问卷、可用性测试等方法,持续收集一手数据,输出洞察报告; 4、与算法、开发、美术等团队紧密交流,推动问题闭环与方案落地,跟踪效果并反馈改进。
本课题的研究目标是开发面向大模型的可扩展监督对齐方法,通过探索更高效的人类反馈收集与利用机制、自动化偏好学习和评估框架,以及对齐传递技术,实现在有限人类监督资源下对大规模AI系统进行有效对齐。 项目将建立产品与研究的协同设计机制,确保对齐技术能够直接响应实际产品需求,通过从产品应用场景中收集真实用户反馈来迭代优化对齐方法,形成研究与产品互促共进的闭环,提升模型在安全性、价值观一致性和指令遵循能力等方面的表现。
-基础算法方向 1. 围绕商业化广告,应用NLP/CV/多模态算法能力进行内容理解,完成相关技术问题解决; 2. 负责NLP/CV/多模态相关算法研发,面向但不限于:query理解、类目体系、属性体系、多模态检索、图像标签、大模型等等(以上方向擅长一个即可),时刻follow与探索前沿技术; -创意生成方向 1. 结合业界先进的 AIGC生成式技术,对广告素材和创意进行生产和优化,熟悉文本基础大模型、GPT/T5等常见用于生成的模型框架,在生成算法上结合业务场景不断进行技术创新,提高广告素材(标题、图片等)的多样性及质量; 2. 结合线上广告素材的业务指标对算法模型进行定向的模型迭代,线上链路完善,实现面向广告投放效果及收入增长目标的闭环优化;
团队介绍:广告业务原为商业产品与技术部门,为抖音集团的商业变现提供广告产品与技术,负责端到端大型广告系统建设,覆盖抖音、今日头条、西瓜视频、番茄小说、穿山甲等产品矩阵,践行"激发生意新可能"理念,致力于让营销更省心、更高效、更美好,推动商业的可持续增长,让不分体量、地域的企业及个体,都能通过数字化技术激发创造、驱动生意。连接广告主、用户及生态伙伴、成为开放共赢的全球最佳智能营销平台之一。在这里,你将投身建设面向未来的数字营销能力,接触到全球先进的商业产品架构、模型和算法,在互联网广告行业始终创新。 课题介绍: 1、核心技术架构: 1)下一代广告技术栈: 模型算法层:搭建基于强化学习的智能出价与流量预估系统,攻克深层转化场景下的数据稀疏、多源异构数据融合(延迟数据/埋点噪声/跨平台行为)等行业难题; 系统工程层:构建支持基于长序列特征的实时预估框架,研发支持动态创意组合的自动化投放引擎; AIGC融合层:建立文/图/视频多模态生成技术中台,实现从IP素材生成到智能投放的全链路闭环; 2)行业首创的AIGC解决方案: 正在搭建全球领先的"小说→漫剧"智能生产线,攻克三大技术堡垒: 多模态叙事引擎:研发支持角色一致性保持(Character-aware Diffusion)、分镜自动生成(Storyboard LLM)、动态运镜控制(Camera ControlNet)的复合型生成框架; 工业化工作流:构建支持分布式渲染、多版本AB测试、合规性审核的智能生产管线,实现日均千级素材产能; 投放增效系统:开发生成质量量化评估模型(QAGAN),建立素材生成-投放效果的反哺优化机制; 2、岗位挑战: 你将主导: 构建支持沿模型的混合推理框架,优化多卡并行下的生成效率; 设计跨模态对齐算法,提升文字指令到视觉元素的可控生成精度; 研发基于用户行为分析的智能素材变异系统,实现CTR提升30%+的个性化内容生成; 打造从内容生产到实时竞价的全自动化广告引擎; 3、我们期待这样的开拓者: 精通Diffusion Models技术栈,具有LoRA/ControlNet/T2I-Adapter等微调框架的实战调优经验; 熟悉多模态大模型(如VideoPoet、Sora等视频生成技术原理),具备跨模态表征学习研究背景; 拥有广告算法背景者优先,熟悉CVR预估、智能出价等核心模块与生成式AI的结合点; 出色的工程化能力,主导过至少一个完整AIGC项目的端到端落地(从模型训练到服务部署)。