夸克千问C端事业群-视觉交互算法工程师-杭州
任职要求
1.计算机科学、电子工程、自动化或相关专业硕士及以上学历,具有扎实的机器学习理论基础; 2.至少3年以上视觉算法研发经验,在以下一个或多个方向有深入研究或项目经验优先:眼动追踪、手势识别、虹膜识别、…
工作职责
1.负责面向人机交互场景的视觉感知算法研发,包括但不限于:眼动跟踪、眼部分析、虹膜识别、手势识别等; 2.设计并实现高精度、低延迟、鲁棒性强的实时视觉交互算法,适配嵌入式设备或移动端部署; 3.参与多模交互(眼动、手势、语音、头动)系统的设计与搭建; 4.构建高质量数据集,设计评估指标,持续提升算法性能; 5.跟踪学术界与工业界最新进展,探索前沿技术在产品中的落地应用。
1.负责全模态交互系统的算法研发,包括但不限于多模态意图理解、上下文感知、复杂任务分解、GUI理解、工具调用等功能的实现; 2.设计先进的全模态融合与推理算法,确保系统在各类真实场景中的鲁棒性与响应效率; 3.跟踪全模态大模型发展趋势,包括SFT、RL、多模态对齐等技术,探索前沿技术在产品中的落地应用。
1. 负责语音助手场景的记忆相关能力建设,包括对话数据、行为数据、应用数据的记忆生成和召回链路; 2. 负责大模型在记忆机制(如外部记忆库、长期上下文管理)和数据处理(如机器数据预标注、质检)方面的算法研究与开发; 3. 记忆相关agent算法研发,保证记忆能力在对话中控、领域agent、个性化交互等场景的高质量交付。
千问学习算法团队致力于使用AI技术重塑面向未来的学习体验。在这里您将与我们一起挑战前沿的产品技术问题,并收获服务千万级用户的成就感和影响力。 1. 负责面向场景的多模态大模型研发,包括图文、视频、音频等多个模态的预训练,探索多模态的数据质量评估和清洗方法; 2. 负责对模型的训练数据、训练策略、模型结构等进行深入分析,指导评测方式迭代以及模型训练策略优化; 3. 负责视觉深度推理、数字化理解、实时语音交互对话、视频生成等能力建设; 4. 负责跟踪和研究多模态大模型前沿技术调研、落地、对业务进行优化; 5. 负责对各业务场景下相关技术问题进行分析、算法设计、研发以及推动上线,提升业务效果;
岗位目标: 面向人工智能前沿技术领域,聚焦计算机视觉、自然语言处理、大模型等核心技术,研发高性能、低时延的智能系统,支持语音助手、多语言交互、智能内容生成、视觉理解等多种应用场景,推动AI技术的产品化落地与规模化应用。 具体职责包括但不限于: 核心算法研发与优化: 针对具体任务场景(如语音识别、机器翻译、图像理解、文本生成等),开展深度学习模型的算法设计与创新,探索新型神经网络架构(如Transformer、MoE、扩散模型等),提升模型在复杂环境下的准确性、鲁棒性与泛化能力。 负责端到端建模优化,结合上下文理解、对话状态追踪或多模态融合技术,增强系统在连续交互场景中的语义理解与响应能力。 构建高质量训练数据体系,设计自动化语料清洗、标注与增强方案,覆盖多语言、多方言、噪声或小样本等挑战性场景,支撑模型持续迭代。 大模型技术研发与应用: 参与大规模预训练模型(LLM、VL模型等)的研发与微调,包括指令微调、对齐优化、提示工程及推理加速,提升模型在下游任务中的表现。 探索大模型在跨模态理解(图文、音视频)、实时生成、知识推理等场景的应用路径,推动AIGC、智能摘要、自动字幕、翻译等业务的技术升级。 研发高效微调技术(LoRA、Adapter等)与模型服务架构,实现大模型在资源受限环境下的灵活部署。 系统性能优化与工程化落地: 推动模型轻量化与推理加速,应用模型压缩、量化、蒸馏、剪枝等技术,提升模型在移动端、边缘设备或云端的运行效率。 协同工程团队完成算法模块的高性能集成,优化分布式训练与推理框架,保障系统低时延、高并发与稳定性。 支持多平台部署(移动端、PC端、Web端、云服务),参与全链路性能调优与监控体系建设。 前沿技术探索与跨领域协作: 跟踪人工智能领域最新研究进展(CV/NLP/ASR/TTS/MT等),结合业务需求进行技术预研与原型验证。 与产品、数据、工程团队紧密协作,深入理解用户场景,推动AI能力在实际产品中的创新应用。