拼多多【商业化】多模态大模型算法工程师
任职要求
1、熟悉NLP领域的基础算法,了解Attention、Transformer、Bert、ChatGPT等基础NLP、LLM模型。 2、熟悉CV图像领域的基础算法,了解检测、分割、分类、理解、生成等领域的基础算法。如FastRCNN、YOLO、ResNet、Inception、VIT、SAM、VAE、GAN等。 3、熟悉多模态领域…
工作职责
1、大模型基础模型研发:构建电商领域图像、NLP多模态大模型基座。持续建设和优化预训练、微调等算法,构建更加适合电商领域的大模型。 2、推进图像、NLP、多模态大模型在搜索(关键词、图像)、推荐、广告领域全链路算法的落地:改进召回、粗排、精排、重排、相关性、创意等漏斗效率,持续提升各个场景的用户体验、转化效率、GMV、收入指标,持续提升搜索、推荐的智能化水平。 3、推进图像、多模态大模型在图像搜索、同款识别、创意生成等领域的落地,改善图像搜索的用户体验,通过技术创新为用户创造更大的商业价值。
团队介绍:商业信任与安全算法团队,聚焦于通过人工智能技术(包括但不限于NLP/CV/多模态/图/大模型)识别和治理问题广告内容和问题广告主,助力降低虚假宣传、不良暗示等内容发生概率,提升广告质量。该方向也是行业共同关注、长期研究的方向,在这里你可以基于平台能力及内容,深耕算法优化,为商业化各业务提供安全解决方案。 课题介绍:智能审核业务比较复杂,随着审核技术的不断演进,各个领域面临着新的风险问题和对抗形式,这对大模型的应用提出了新的挑战。例如,在审核业务中,涉及审核规则变更、长文本、长时序、多语言、少样本和AIGC生成对抗等问题时,现有的开源大模型表现往往不尽人意。因此,针对这些挑战,我们亟需研发专门针对智能审核的大模型,以提升其在治理中的有效性和适应性。特别的,针对业务特点,我们需要探索高质量的数据自动生成、高效的MOE Embedding、Auto-Prompt生成、高质量 COT输出、大模型知识蒸馏等。此外,该模型应能够满足审核业务的需求,实现高准确率的自主决策和可解释性的COT生成,显著减少误判。针对动态变化的审核规则变更,它能够通过RAG模块自动检索类似的审核案例,将复杂的审核规则变更分解为简单的原子任务,自动拆分出驳回和豁免原子任务,并自动调用相应的Tools来解决这些任务,从而建立“知道拒绝并且知道为何拒绝”的业内领先智能审核系统。最终,大模型智能审核系统的审核效果需要接近或者超过人工审核,往全机审的路线上演进。 1、模态融合能力:提升文本、音频、图像、视频和直播等多模态的细粒度理解能力,实现高准确率的自主决策和可解释性的COT生成; 2、Few-Shot能力:探索多语言、长时序和少样本问题,增强Few-Shot和Zero-Shot能力,针对多变的业务规则具备复杂指令和Auto-Prompt生成能力; 3、攻防对抗能力:研究AIGC图像视频的判别,增强审核大模型对隐晦、抽象的生成式内容的攻防对抗能力; 4、Agent能力:具备调用RAG模块,使用Tools,和Auto-Planning能力;提升大模型的动态推理和反思能力。
商业信任与安全算法团队,聚焦于通过人工智能技术(包括但不限于NLP/CV/多模态/图/大模型)识别和治理问题广告内容和问题广告主,减少虚假宣传、不良暗示等内容,提升广告质量。该方向也是全球内容生产平台共同面对且长期研究的方向,在这里你可以在字节跳动商业化海量的文本、图像、视频、广告主、关联关系等数据基础上构建机器学习系统,深耕算法优化,为商业化各业务提供安全解决方案。 1、探索并落地超大规模多模态大模型,在业务场景做深度适配和极致优化; 2、参与多模态大模型多体裁内容数据链路建设、指令微调、偏好对齐、模型优化全流程实践; 3、将多模态大模型应用于图像/视频/文本内容理解(比如视频分类、视觉问答、跨模态检索、多模态表征)、交互、生成、逻辑推理等领域; 4、跟踪调研多模态大模型以及相关方向(包括但不限于CV/NLP/多模态/Agent)的前沿技术; 5、深入研究和探索多模态大模型在更多未来生活场景中的应用。
商业信任与安全算法团队,聚焦于通过人工智能技术(包括但不限于NLP/CV/多模态/图/大模型)识别和治理问题广告内容和问题广告主,减少虚假宣传、不良暗示等内容,提升广告质量。该方向也是全球内容生产平台共同面对且长期研究的方向,在这里你可以在字节跳动商业化海量的文本、图像、视频、广告主、关联关系等数据基础上构建机器学习系统,深耕算法优化,为商业化各业务提供安全解决方案。 1、探索并落地超大规模多模态大模型,在业务场景做深度适配和极致优化; 2、参与多模态大模型多体裁内容数据链路建设、指令微调、偏好对齐、模型优化全流程实践; 3、将多模态大模型应用于图像/视频/文本内容理解(比如视频分类、视觉问答、跨模态检索、多模态表征)、交互、生成、逻辑推理等领域; 4、跟踪调研多模态大模型以及相关方向(包括但不限于CV/NLP/多模态/Agent)的前沿技术; 5、深入研究和探索多模态大模型在更多未来生活场景中的应用。
团队介绍:负责影像业务剪映、醒图等创作工具的增长、内容分发和商业化的算法,以及数据科学相关工作,致力于激发用户创作灵感、优化创作效率和提高所创作内容的价值,并完成增长与商业化变现。 课题介绍:剪映CapCut创作工具需要更自动化的扩大模版与素材的供给,降低创作过程的难度,本课题旨在通过AIGC根据当前热点,推荐,搜索等分发线索自动生成模版、素材、音乐,大规模补充模版与素材供给,为用户提供更多创作灵感,以及根据用户上传素材,AIGC辅助自动成片。 1、基于多模态大模型(LLM/视觉/音频)技术,研发自动化内容生成系统,通过分析热点、搜索趋势及用户行为数据,构建动态生成模型,实现视频模板、风格化素材、场景适配音乐的规模化生产,提升创作工具的内容供给多样性; 2、研究用户意图深度理解模型,通过用户上传的原始素材(图片、视频片段、文字描述)分析创作目标,构建端到端的自动成片Pipeline,实现镜头分割、转场特效生成、字幕匹配、音乐适配的全流程AI化; 3、设计跨模态对齐算法,解决图文/视频/音乐的多维度语义匹配问题。