logo of quark

夸克千问C端事业群-视觉交互算法工程师-杭州

社招全职3年以上技术类-算法地点:杭州状态:招聘

任职要求


1.计算机科学、电子工程、自动化或相关专业硕士及以上学历,具有扎实的机器学习理论基础;
2.至少3年以上视觉算法研发经验,在以下一个或多个方向有深入研究或项目经验优先:眼动追踪、手势识别、虹膜识别、…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.负责面向人机交互场景的视觉感知算法研发,包括但不限于:眼动跟踪、眼部分析、虹膜识别、手势识别等;
2.设计并实现高精度、低延迟、鲁棒性强的实时视觉交互算法,适配嵌入式设备或移动端部署;
3.参与多模交互(眼动、手势、语音、头动)系统的设计与搭建;
4.构建高质量数据集,设计评估指标,持续提升算法性能;
5.跟踪学术界与工业界最新进展,探索前沿技术在产品中的落地应用。
包括英文材料
学历+
机器学习+
还有更多 •••
相关职位

logo of quark
社招3年以上技术类-算法

岗位目标: 面向人工智能前沿技术领域,聚焦计算机视觉、自然语言处理、大模型等核心技术,研发高性能、低时延的智能系统,支持语音助手、多语言交互、智能内容生成、视觉理解等多种应用场景,推动AI技术的产品化落地与规模化应用。 具体职责包括但不限于: 核心算法研发与优化: 针对具体任务场景(如语音识别、机器翻译、图像理解、文本生成等),开展深度学习模型的算法设计与创新,探索新型神经网络架构(如Transformer、MoE、扩散模型等),提升模型在复杂环境下的准确性、鲁棒性与泛化能力。 负责端到端建模优化,结合上下文理解、对话状态追踪或多模态融合技术,增强系统在连续交互场景中的语义理解与响应能力。 构建高质量训练数据体系,设计自动化语料清洗、标注与增强方案,覆盖多语言、多方言、噪声或小样本等挑战性场景,支撑模型持续迭代。 大模型技术研发与应用: 参与大规模预训练模型(LLM、VL模型等)的研发与微调,包括指令微调、对齐优化、提示工程及推理加速,提升模型在下游任务中的表现。 探索大模型在跨模态理解(图文、音视频)、实时生成、知识推理等场景的应用路径,推动AIGC、智能摘要、自动字幕、翻译等业务的技术升级。 研发高效微调技术(LoRA、Adapter等)与模型服务架构,实现大模型在资源受限环境下的灵活部署。 系统性能优化与工程化落地: 推动模型轻量化与推理加速,应用模型压缩、量化、蒸馏、剪枝等技术,提升模型在移动端、边缘设备或云端的运行效率。 协同工程团队完成算法模块的高性能集成,优化分布式训练与推理框架,保障系统低时延、高并发与稳定性。 支持多平台部署(移动端、PC端、Web端、云服务),参与全链路性能调优与监控体系建设。 前沿技术探索与跨领域协作: 跟踪人工智能领域最新研究进展(CV/NLP/ASR/TTS/MT等),结合业务需求进行技术预研与原型验证。 与产品、数据、工程团队紧密协作,深入理解用户场景,推动AI能力在实际产品中的创新应用。

更新于 2026-01-15广州|北京
logo of quark
社招1年以上技术类-算法

负责AI眼镜背后的整体云端算法解决方案,包括语音助手、拍照问答、全模态live交互等核心能力。持续推动大模型(LLM/VLM)在逻辑推理、问答、复杂上下文理解、指令遵循、Agent智能体及多模态交互等核心方向取得突破性进展,打造行业领先的智能体验。具体职责包括: 1、LLM/VLM后训练技术研发与落地: 探索并应用SFT、RLHF、DPO、RLVR等训练范式及模型蒸馏等对齐策略,持续提升模型在RAG、行业知识掌握、用户偏好理解、指令遵循能力及抑制幻觉等方面的表现。 2、多模态统一模型构建: 规划并实施文本、语音、视觉等多模态信息的统一建模方案,确保模型在文本问答、图文百科、视频实时对话等复杂场景下具备精准的理解能力和高效的输出能力。 3、眼镜场景算法闭环迭代: 构建基于线上日志的数据飞轮,体系化建设眼镜场景专属训练数据集,并推动模型持续迭代更新。聚焦业务痛点,解决实际问题,构建坚实的技术壁垒。

更新于 2026-01-20北京|杭州
logo of quark
校招千问C端事业群秋

阿里巴巴智能信息事业群,聚焦AI在信息服务赛道的创新应用,从工具到服务,持续为用户提供高效、智能的AI应用。智能信息事业群核心产品为夸克、通义、UC浏览器、书旗小说、超级汇川等,以多产品矩阵,覆盖横跨各年龄段的7亿+用户人群,服务超10万+客户。 在这里, 你将有机会与交互设计师一起,美化产品线Web功能的设计; 有机会与视觉设计师一起,完成产品线Web功能的开发与实现; 有机会做全栈式开发; 有机会做移动端开发; 有机会做性能、架构等方面的改进与优化; 有机会自己亲手打造一个产品的从设计到发布; 你还将加入到我们业内最前沿Web技术的研究与开发中。

更新于 2025-08-13广州|杭州
logo of quark
社招1年以上技术类-算法

负责千问app相机场景下的整体算法建设,核心是多模态问答能力。基于百亿图文视频数据以及亿级用户需求,持续推进模型效果和场景落地,尤其是多轮交互、多模对话、多模态planning、多模态reasoning等方向实现突破进展。 1、多模态planner的优化&探索,主要负责在复杂多轮/多模场景下的意图理解、路径规划、工具调用等能力建设,以及探索强化学习在复杂路径planning场景下的应用; 2、vlm后训练技术探索&落地,包括不限于SFT/RLVR/RLHF等训练范式、模型蒸馏等对齐策略,提升模型在多轮对话、行业知识、RAG、指令遵循、视觉推理、用户偏好等方面的能力; 3、建设完备的算法迭代体系,包括线上数日志据飞轮的搭建、训练数据流程化建设、模型迭代&合版机制的完善等,持续面向业务解决实际问题,构建技术壁垒;

更新于 2026-01-20北京|杭州