【小红书】小红书搜索AI语料产品实习生

实习A63598

团队介绍：Intelligence and Innovation团队，是飞书部门内部负责做算法创新与实践的部门，深耕于ToB办公场景的LLM应用相关的前沿技术探索与落地。既通过ASR、大模型文本总结、智能函数、多模态等AI中台能力的建设来支持飞书内外语音识别、会议纪要生成、智能表格公式等各类AI产品，同时也负责了企业AI搜索与知识管理等业务的落地和推广，团队目标是将飞书打造为AI与人高效协作的下一代智能平台，实现 “有效率、有方法、有结果” 的产品愿景。课题背景：飞书沉淀了企业内大量知识（文档、wiki、消息、会议记录、图片、视频等）。随着企业知识图谱、用户行为轨迹等图结构数据规模的指数级增长，传统基于文本匹配的RAG系统面临关系感知缺失和个性化能力不足的矛盾。如何寻找相对开销低、效果好的企业问答RAG新范式，突破现有系统在跨模态意图理解深度、个性化排序精度与实时生成质量上的瓶颈，基于企业内部知识和外部公网知识来回答问题与完成深度创作，这项工作对于字节自身做好企业知识管理，和飞书打造国内领先的企业知识问答创作产品，都有重要意义。课题挑战： 1、图结构融合挑战：传统RAG系统以文本匹配为核心，难以有效捕获用户行为模式、实体拓扑关系等非结构化图信息。如何将文本、图像、视频等异构图数据嵌入到语义理解框架中，构建统一的特征表示空间，是提升意图识别精度的关键瓶颈； 2、动态推理挑战：企业关系图谱具有实时演化特性，用户行为模式与实体关联强度随时间动态变化。现有静态图嵌入方法难以满足实时问答场景的时效性要求，需要开发增量式图学习算法实现动态知识更新； 3、企业内部知识和外部公网知识的融合：当两种知识之间存在差异或冲突时，如果无法有效融合，会显著降低回答的可靠性和实用性。如何在不同模态间建立准确的语义关联，并有效融合内外部知识，是提升回答可靠性和实用性的关键。虽然业界 Deep Research 实现了基于 Agent 架构的公网知识深度检索与创作，但尚无企业内外部知识融合的成功实践； 4、Agentic RAG 可控性：基于Agent架构来实现企业知识问答创作，依赖LLM进行自主推理和判断，其决策过程存在一定的不可预测性。在某些复杂情况下（召回语料量大且干扰性强、企业内部知识与外部知识冲突），Agent可能做出不符合预期的决策，且难以直接干预和纠正。我们的优势： 1、飞书企业问答产品已经积累了一定的用户基础，并在快速增长； 2、依托飞书套件，能够建立比较完整的用户与其他飞书内实体的图结构数据，并且已经有过早期实践（Lark Graph）； 3、飞书企业问答有完整的评测体系和资源，帮助RAG类探索快速迭代。

更新于 2025-03-04北京

企业知识问答创作研究实习生-飞书AI-筋斗云人才计划

实习A231113

团队介绍：Intelligence and Innovation团队，是飞书部门内部负责做算法创新与实践的部门，深耕于ToB办公场景的LLM应用相关的前沿技术探索与落地。既通过ASR、大模型文本总结、智能函数、多模态等AI中台能力的建设来支持飞书内外语音识别、会议纪要生成、智能表格公式等各类AI产品，同时也负责了企业AI搜索与知识管理等业务的落地和推广，团队目标是将飞书打造为AI与人高效协作的下一代智能平台，实现 “有效率、有方法、有结果” 的产品愿景。课题背景：飞书沉淀了企业内大量知识（文档、wiki、消息、会议记录、图片、视频等）。随着企业知识图谱、用户行为轨迹等图结构数据规模的指数级增长，传统基于文本匹配的RAG系统面临关系感知缺失和个性化能力不足的矛盾。如何寻找相对开销低、效果好的企业问答RAG新范式，突破现有系统在跨模态意图理解深度、个性化排序精度与实时生成质量上的瓶颈，基于企业内部知识和外部公网知识来回答问题与完成深度创作，这项工作对于字节自身做好企业知识管理，和飞书打造国内领先的企业知识问答创作产品，都有重要意义。课题挑战： 1、图结构融合挑战：传统RAG系统以文本匹配为核心，难以有效捕获用户行为模式、实体拓扑关系等非结构化图信息。如何将文本、图像、视频等异构图数据嵌入到语义理解框架中，构建统一的特征表示空间，是提升意图识别精度的关键瓶颈； 2、动态推理挑战：企业关系图谱具有实时演化特性，用户行为模式与实体关联强度随时间动态变化。现有静态图嵌入方法难以满足实时问答场景的时效性要求，需要开发增量式图学习算法实现动态知识更新； 3、企业内部知识和外部公网知识的融合：当两种知识之间存在差异或冲突时，如果无法有效融合，会显著降低回答的可靠性和实用性。如何在不同模态间建立准确的语义关联，并有效融合内外部知识，是提升回答可靠性和实用性的关键。虽然业界 Deep Research 实现了基于 Agent 架构的公网知识深度检索与创作，但尚无企业内外部知识融合的成功实践； 4、Agentic RAG 可控性：基于Agent架构来实现企业知识问答创作，依赖LLM进行自主推理和判断，其决策过程存在一定的不可预测性。在某些复杂情况下（召回语料量大且干扰性强、企业内部知识与外部知识冲突），Agent可能做出不符合预期的决策，且难以直接干预和纠正。我们的优势： 1、飞书企业问答产品已经积累了一定的用户基础，并在快速增长； 2、依托飞书套件，能够建立比较完整的用户与其他飞书内实体的图结构数据，并且已经有过早期实践（Lark Graph）； 3、飞书企业问答有完整的评测体系和资源，帮助RAG类探索快速迭代。

更新于 2025-03-04上海

企业知识问答创作研究实习生-飞书AI-筋斗云人才计划

实习A22726

团队介绍：Intelligence and Innovation团队，是飞书部门内部负责做算法创新与实践的部门，深耕于ToB办公场景的LLM应用相关的前沿技术探索与落地。既通过ASR、大模型文本总结、智能函数、多模态等AI中台能力的建设来支持飞书内外语音识别、会议纪要生成、智能表格公式等各类AI产品，同时也负责了企业AI搜索与知识管理等业务的落地和推广，团队目标是将飞书打造为AI与人高效协作的下一代智能平台，实现 “有效率、有方法、有结果” 的产品愿景。课题背景：飞书沉淀了企业内大量知识（文档、wiki、消息、会议记录、图片、视频等）。随着企业知识图谱、用户行为轨迹等图结构数据规模的指数级增长，传统基于文本匹配的RAG系统面临关系感知缺失和个性化能力不足的矛盾。如何寻找相对开销低、效果好的企业问答RAG新范式，突破现有系统在跨模态意图理解深度、个性化排序精度与实时生成质量上的瓶颈，基于企业内部知识和外部公网知识来回答问题与完成深度创作，这项工作对于字节自身做好企业知识管理，和飞书打造国内领先的企业知识问答创作产品，都有重要意义。课题挑战： 1、图结构融合挑战：传统RAG系统以文本匹配为核心，难以有效捕获用户行为模式、实体拓扑关系等非结构化图信息。如何将文本、图像、视频等异构图数据嵌入到语义理解框架中，构建统一的特征表示空间，是提升意图识别精度的关键瓶颈； 2、动态推理挑战：企业关系图谱具有实时演化特性，用户行为模式与实体关联强度随时间动态变化。现有静态图嵌入方法难以满足实时问答场景的时效性要求，需要开发增量式图学习算法实现动态知识更新； 3、企业内部知识和外部公网知识的融合：当两种知识之间存在差异或冲突时，如果无法有效融合，会显著降低回答的可靠性和实用性。如何在不同模态间建立准确的语义关联，并有效融合内外部知识，是提升回答可靠性和实用性的关键。虽然业界 Deep Research 实现了基于 Agent 架构的公网知识深度检索与创作，但尚无企业内外部知识融合的成功实践； 4、Agentic RAG 可控性：基于Agent架构来实现企业知识问答创作，依赖LLM进行自主推理和判断，其决策过程存在一定的不可预测性。在某些复杂情况下（召回语料量大且干扰性强、企业内部知识与外部知识冲突），Agent可能做出不符合预期的决策，且难以直接干预和纠正。我们的优势： 1、飞书企业问答产品已经积累了一定的用户基础，并在快速增长； 2、依托飞书套件，能够建立比较完整的用户与其他飞书内实体的图结构数据，并且已经有过早期实践（Lark Graph）； 3、飞书企业问答有完整的评测体系和资源，帮助RAG类探索快速迭代。

更新于 2025-03-04深圳

大模型语言数据标注实习生(J18213)

实习

1.学习并参与对话系统、大模型前沿方向的数据运营工作，如意图分类、实体识别、文档摘要、角色扮演、AI搜索、文生图等，重点负责模型的数据集制作和标签管理。了解业务流程和算法流程，完成复杂标注任务的设计，在此基础上对原始数据进行处理，包括数据的爬取、筛选和清洗，并制定标注标准。 2.培训海外标注团队，进行数据质检，把控标注质量，确保数据的准确性和一致性。 3.按项目要求对模型进行评测和效果分析，完成复杂的数据分析任务，及时反馈问题，根据模型效果调整数据和标注策略。

更新于 2025-07-02重庆

小红书小红书搜索AI语料产品实习生

任职要求

工作职责