小红书多模态算法工程师AIGC方向-图像生成/编辑
任职要求
1. 计算机、数学、自动化、控制等相关专业; 2. 扎实的数学和算法基础:概率统计、数值优化等算法; 3. 扎实的编程基础:熟悉Pytorch、TensorFlow、MXNet等其中的一种或以上; 4. 了解前沿的Diffusion、LLM、VLLM算法,包括不限于StableDiffusion、Flux、Llama…
工作职责
1. 负责文生图(Text-to-Image)生成算法的研发与优化,包括中文场景下图像生成质量提升、多模态对齐、可控性生成等方向; 2. 图文融合的排版生成技术研发,构建和优化多模态联合训练模型,实现自动化、智能化的视觉内容布局生成(如杂志、UI界面等); 3. 结合各业务场景下相关技术问题进行分析、算法设计,推动算法在工业级场景的部署与应用,沉淀在业界有影响力工作;
T-Star计划是阿里巴巴淘天集团顶尖人才招聘和培养项目,继承“阿里星〞的使命与愿景,面向全球招募顶尖技术人才。首次开设实习生专项招聘,面向2025年10月后毕业的校优秀技术同学。期待你们在淘天,通过极具挑战的前沿课题与亿级规模的海量数据、应用场景,探索和实践最前沿的Al技术,在有价值的业务场景落地技术成果。 如果你,渴望深入探索视频生成技术,开发文本到视频(T2V)基础模型的前沿技术,致力于提升生成视频的画质,真实性,一致性,以及视频生产的效率; 如果你,热衷于AIGC驱动的视频增强与处理技术,专注于将通用大模型架构优化并迁移到垂直领域,推动下游应用性能的突破; 如果你,专注于基于AIGC的可控性编辑,探索如何精准实现内容生成与修改,满足多样化的业务需求; 如果你,对基于AIGC的人脸,人体生成编辑技术充满热情,致力于打造具有高度交互性和真实性的数字形象; 如果你,期望在多模态视频理解领域取得突破,通过技术创新提升视频内容的理解与分析能力; 如果你,期望与一群聪明、皮实、乐观、追求卓越的优秀伙伴并肩作战,共同开创音视频技术的新篇章; 那还在等待什么,赶紧加入我们吧! T-Star实习可以带给你什么? ꔷ ①加入前沿技术探索队伍,参与顶级课题研究,有机会实现工业界项目落地。②跟企业大牛导师/学术界名导一起做有价值的课题。③丰富的技术资源、海量的数据与优秀的团队助力发paper ꔷ 投递T-Star实习生,提前解锁淘天顶级技术岗位,实习与T-Star正式批/应届秋招投递不冲突。拿到T-Star意向书的同时,将获得直通正式批次终面的机会;参与T-Star实习且表现优秀的同学,提供T-Star转正Offer。
T-Star计划是阿里巴巴淘天集团顶尖人才招聘和培养项目,继承“阿里星〞的使命与愿景,面向全球招募顶尖技术人才。首次开设实习生专项招聘,面向2025年10月后毕业的校优秀技术同学。期待你们在淘天,通过极具挑战的前沿课题与亿级规模的海量数据、应用场景,探索和实践最前沿的Al技术,在有价值的业务场景落地技术成果。 如果你,渴望深入探索视频生成技术,开发文本到视频(T2V)基础模型的前沿技术,致力于提升生成视频的画质,真实性,一致性,以及视频生产的效率; 如果你,热衷于AIGC驱动的视频增强与处理技术,专注于将通用大模型架构优化并迁移到垂直领域,推动下游应用性能的突破; 如果你,专注于基于AIGC的可控性编辑,探索如何精准实现内容生成与修改,满足多样化的业务需求; 如果你,对基于AIGC的人脸,人体生成编辑技术充满热情,致力于打造具有高度交互性和真实性的数字形象; 如果你,期望在多模态视频理解领域取得突破,通过技术创新提升视频内容的理解与分析能力; 如果你,期望与一群聪明、皮实、乐观、追求卓越的优秀伙伴并肩作战,共同开创音视频技术的新篇章; 那还在等待什么,赶紧加入我们吧! T-Star实习可以带给你什么? ꔷ ①加入前沿技术探索队伍,参与顶级课题研究,有机会实现工业界项目落地。②跟企业大牛导师/学术界名导一起做有价值的课题。③丰富的技术资源、海量的数据与优秀的团队助力发paper
1.前沿算法研发 •主导计算机视觉与AIGC核心算法研发(检测/分割/生成/多模态等),推动超分、修复、美化等技术在业务场景落地,实现效果与效率双优化。 •探索Stable Diffusion等生成式模型的应用创新,结合业务需求优化图像生成、智能编辑(如文本驱动编辑、语义修复)等关键技术。 2.工程化落地 •完成算法从原型到产品的全链路开发,解决模型压缩(量化/剪枝)、推理加速(TensorRT/MNN部署)、跨平台适配等工程挑战。 •构建高精度、低延迟的CV pipeline,覆盖图像矫正、去噪、OCR等实际需求。 3.技术前瞻性研究 •跟踪CVPR/ICML等顶会技术动态,针对性研发Diffusion Models、Vision Transformer等前沿模型,建立技术壁垒。
团队介绍: 我们团队聚焦于本地生活领域的广告和内容智能创作方向,技术栈包括,多模态大模型的理解和生成,视觉创意的可控生成,图像生成和编辑。通过在前沿技术领域的深耕,推动技术在广告视觉创意生成和多场景(搜推等)的内容的图文生成等方向的应用。我们正在寻找对技术有极致热情和专注的同学,在创建业务价值的同时,对前沿技术做创新的探索,共同做出有影响力的工作。 岗位职责: 1、跟踪和深入探索AIGC方向研究前沿,负责多模态媒体内容的理解、编辑、生成相关新技术的应用落地和探索,解决在内容智能创作以及广告创意等的应用中的算法难点,对算法的竞争力负责; 2、研究和应用计算机视觉(CV)等相关技术,熟悉多模态大模型或者图像编辑生成等方向的经典网络模型,了解各种常用网络训练方式及调优方式; 3、与团队成员合作,共同推动AIGC技术在实际业务中的应用和落地。