夸克千问C端事业群-视觉交互算法工程师-杭州
任职要求
1.计算机科学、电子工程、自动化或相关专业硕士及以上学历,具有扎实的机器学习理论基础; 2.至少3年以上视觉算法研发经验,在以下一个或多个方向有深入研究或项目经验优先:眼动追踪、手势识别、虹膜识别、…
工作职责
1.负责面向人机交互场景的视觉感知算法研发,包括但不限于:眼动跟踪、眼部分析、虹膜识别、手势识别等; 2.设计并实现高精度、低延迟、鲁棒性强的实时视觉交互算法,适配嵌入式设备或移动端部署; 3.参与多模交互(眼动、手势、语音、头动)系统的设计与搭建; 4.构建高质量数据集,设计评估指标,持续提升算法性能; 5.跟踪学术界与工业界最新进展,探索前沿技术在产品中的落地应用。
1.负责全模态交互系统的算法研发,包括但不限于多模态意图理解、上下文感知、复杂任务分解、GUI理解、工具调用等功能的实现; 2.设计先进的全模态融合与推理算法,确保系统在各类真实场景中的鲁棒性与响应效率; 3.跟踪全模态大模型发展趋势,包括SFT、RL、多模态对齐等技术,探索前沿技术在产品中的落地应用。
1. 负责语音助手场景的记忆相关能力建设,包括对话数据、行为数据、应用数据的记忆生成和召回链路; 2. 负责大模型在记忆机制(如外部记忆库、长期上下文管理)和数据处理(如机器数据预标注、质检)方面的算法研究与开发; 3. 记忆相关agent算法研发,保证记忆能力在对话中控、领域agent、个性化交互等场景的高质量交付。

全面负责定义、设计并实现下一代对话系统的核心算法与交互范式,解决当前对话模型在多轮交互、知识应用、共情能力等方面的挑战,探索并引领模型在个性化、主动性、拟人化等前沿方向的技术突破。直接决定数亿夸克用户在Chat场景的与AI 的交互体验,塑造夸克在未来对话式 AI 时代的领先地位。 1. 对话体验定义与规划。深入分析用户意图与行为,结合业务场景,制定并执行对话体验的中长期技术演进路线图。并密切追踪并研究对话式 AI 领域的最新进展,包括主动式对话策略、多模态对话 (语音/视觉融合)、AI Agent 中的对话流控制等。您将主导定义“顶级对话体验”的标准,并将其分解为可落地、可量化的算法迭代目标。 2. 多轮对话与上下文理解。攻坚并解决长程、复杂多轮对话中的核心技术难题,包括但不限于指令遵循、上下文精准理解、长程记忆与遗忘机制、隐式意图识别等。您将设计创新的模型结构与训练策略,使模型具备真正连贯、有逻辑的对话能力。 3. 对话回复准确与全面。主导研发将外部知识 (如搜索、工具调用) 与大模型进行深度、动态融合的先进技术。致力于解决模型在对话中的意图偏离、事实性错误、内容不详实和知识更新不及时等问题,并通过 RAG 新范式或其他创新方法,显著提升对话的准确性与信息量。 4. 评测体系与数据飞轮。建立并完善一套科学、全面的对话能力评测体系,能够精准衡量模型的综合对话质量 (Coherence, Empathy, Informativeness 等)。设计并驱动高效的数据闭环系统,利用真实用户反馈持续、自动化地优化模型。
千问学习算法团队致力于使用AI技术重塑面向未来的学习体验。在这里您将与我们一起挑战前沿的产品技术问题,并收获服务千万级用户的成就感和影响力。 1. 负责面向场景的多模态大模型研发,包括图文、视频、音频等多个模态的预训练,探索多模态的数据质量评估和清洗方法; 2. 负责对模型的训练数据、训练策略、模型结构等进行深入分析,指导评测方式迭代以及模型训练策略优化; 3. 负责视觉深度推理、数字化理解、实时语音交互对话、视频生成等能力建设; 4. 负责跟踪和研究多模态大模型前沿技术调研、落地、对业务进行优化; 5. 负责对各业务场景下相关技术问题进行分析、算法设计、研发以及推动上线,提升业务效果;