美团大模型生成式内容理解算法专家
任职要求
1. 在内容理解、多模态大模型、内容x搜推交叉等领域,硕士3~5年以上工作经验。 2. 具备独立负责一个或多个技术方向,能够进行中长期技术规划,带领团队进行技术落地达成业务目标的能力。 3. 熟练掌握模式识别、自然语言处理、计算机视觉的基础理论和方法,在一个或多个领域有深入研究:多模态表征、跨模检索、多模态大模型、内容x搜推交叉、视频分类与结构化分析等。 4. 具备扎实的工程能力,熟悉TensorFlow,PyTorch等主流框架,熟练使用Hive、Spark等大数据处理工具。 5. 具有广阔的技术视野、良好的逻辑分析和表达能力,紧跟领域前沿,对解决具有挑战性问题能够充满热情,善于通过创造性的方法解决高模糊度、高复杂的实际问题。 6. 具有快速学习能力,有责任感,能较好的跨团队协作并推进项目。 具备以下条件优先 具备内容x搜推交叉领域经验,在内容搜索、内容推荐、内容创作等领域,具有通过算法落地解决业务问题的行业经验。 具有生成式内容理解、多模态理解与生成统一模型等算法研发经验。 在大规模数据、算力、模型上有大量调优经验。 在多模态、计算机视觉、自然语言处理、搜推的通用或细分领域的权威竞赛中取得较好名次。 在CCF A类会议或同级期刊发表过论文。
工作职责
1. 负责大众点评信息流推荐、内容搜索、内容创作场景的内容理解、多模态大模型、内容x搜推交叉相关算法研发,包括不限于内容打标、embedding、话题推荐、标题生成、描述生成、视觉问答、内容x行为联合建模等。 2. 负责将上述技术在大众点评信息流推荐、内容搜索、内容创作等场景的落地,与产运研团队紧密协作,降低内容生产成本、提升内容分发效率,解决内容生产、分发、展示等环节的实际问题。 3. 紧密跟进生成式内容理解、多模态大模型、内容x搜推交叉等领域的前沿进展,并负责在信息流推荐、内容搜索、内容创作等业务场景的落地应用。
1、广告AIGC:负责以可灵模型等为代表的前沿视频生成式AI在内容创作方面的算法研发和落地,包括但不限于text to video, image to video,image and video editting等,结合文本/图像/视频/音频等多模态匹配技术、广告投放优化策略和模型,优化AIGC系统生成效果和广告投放效果; 2、追踪业界创意、多模态及Generative AI方向最新技术,落地应用并提升广告创意理解、自动生成和优化等场景的效果。
1、广告AIGC:负责以可灵模型等为代表的前沿视频生成式AI在内容创作方面的算法研发和落地,包括但不限于text to video, image to video,image and video editting等,结合文本/图像/视频/音频等多模态匹配技术、广告投放优化策略和模型,优化AIGC系统生成效果和广告投放效果; 2、追踪业界创意、多模态及Generative AI方向最新技术,落地应用并提升广告创意理解、自动生成和优化等场景的效果。
1、商业化LLM:负责大语言模型(LLM)的前沿技术探索和全链路研发,包括但不限于抗知识遗忘的继续预训练、指令微调、RLHF等,结合广告业务场景,研发基于大语言模型下游应用,包括但不限于营销场景下的语义理解、信息抽取、脚本生成、对话系统等,提升广告投放系统的智能化能力; 2、广告AIGC:负责以扩散模型等为代表的前沿图文/短视频的生成式AI在内容创作方面的算法研发和落地,包括但不限于text to image, text to video, image and video editting等,结合文本/图像/视频/音频等多模态匹配技术、广告投放优化策略和模型,优化AIGC系统生成效果和广告投放效果; 3、多模态大模型for推荐:负责视频多模态大模型的最新研究进展和相关技术实现(视频理解、视频内容问答、视频caption等),提出并优化最前沿算法,将多模态等基础大模型的表征学习与广告业务相结合,提升广告分发效率。
研究方向一:多模态Agent 1.基于多模态数据的智能决策、任务自动化及人机协同,提升直播运营效率与效果 2.多Agent框架设计与系统研发 研究方向二:高表现力数字人生成驱动 1.语音精准唇形驱动。通过AIGC、人脸驱动等能力,形成人形交互的行业最优产品化方案 2.人体驱动技术。针对AI直播业务场景,适配最优的人体肢体驱动技术解决方案 3.端到端人形生成能力。打造从语音文本输入到完整数字人输出的跨模态生成架构,通过联合训练实现语音驱动表情、文本驱动肢体语言、情感驱动微动作的多维度协同控制 研究方向三:智能对话与多模态内容生成交互技术 1.多模态智能对话技术。基于业务数据,利用RAG、跨模态检索、大模型后训练等方式,打造高效的智能对话能力 2.多模态内容理解及生成技术。基于业务数据,利用多模态大模型、AIGC技术构建多模态交互的基础数据