logo of transsion

传音算法架构师(语音与视觉方向)(J17888)

社招全职5年以上地点:上海 | 重庆 | 深圳状态:招聘

任职要求


(1) 计算机、电子信息、人工智能等相关专业硕士及以上学历,博士优先。
 (2) 5 年以上语音 / 视觉算法研发经验,精通至少两个核心领域(如语音增强 + ASR,或 CV+TTS)。
技术能力
 (1) 扎实的语音信号处理基础(如降噪、波束、回声消除)、ASR/TTS 技术栈(端到端模型、声学模型、transformer),或计算机视觉(检测、识别、分割、AIGC生图)。
 (2) 熟悉深度学习框架(TensorFlow/PyTorch),具备模型优化与端侧部署经验(如 TensorRT、NCNN)。
 (3) 掌握算法工程化流程,能独立完成方案设计、代码实现与性能调优。
综合素质
 (1) 优秀的系统架构思维和技术前瞻性,能在复杂场景中平衡效率与创新性。
 (2) 出色的跨团队沟通能力,擅长将技术语言转化为产品需求,推动项目落地。
 (3) 对行业动态敏感,有开源社区贡献或顶会论文(ICASSP、CVPR 等)者优先。

工作职责


技术规划与方案设计
 (1) 负责语音信号增强、语音识别(ASR)、语音合成(TTS)、计算机视觉(CV)等算法领域的技术需求分析,制定中长期技术路线图,形成可落地的系统架构方案。
 (2) 将复杂算法需求拆解为模块化任务,协调算法团队、工程团队排期开发,确保技术方案高效实施与迭代。
跨团队技术整合
 (1) 跟踪前沿算法研究成果(如端侧轻量化、多模态融合),推动其落地应用。
 (2) 设计跨部门协作的技术接口与数据流程,确保算法能力与产品需求无缝衔接,形成差异化的解决方案。
技术决策与创新
 (1) 评估技术选型(如模型框架、部署方案),优化算法性能(精度、延迟、资源占用),解决关键技术瓶颈。
 (2) 主导预研项目,探索多技术融合创新(如多模态交互、主动感知),为公司战略方向提供技术储备。
包括英文材料
学历+
算法+
Transformer+
OpenCV+
深度学习+
TensorFlow+
PyTorch+
TensorRT+
性能调优+
CVPR+
相关职位

logo of transsion
社招8年以上

1.负责包括android智能终端的语音/图像/大模型等AI算法工程化与系统级服务的开发和落地 2.负责AI交互基础原子能力如识别、人脸、多模态等算法引擎集成和效果优化工作 3.负责面向多终端的端云交互SDK设计和开发 4.负责AI相关算法与服务全链路性能分析和问题定位工具开发 5.负责端侧大模型推理引擎及上层应用的架构设计,集成和性能优化工作 6.撰写和维护架构设计文档、技术文档,保证框架设计的合理性评估,提升团队跨部门沟通协作效率 7.制定、实施统一的代码规范和质量标准,推动团队提升代码质量 8.跟踪及洞察技术趋势,根据业务需要及时输出技术调研报告

更新于 2025-04-16
logo of mi
校招

主要从事物联网(IoT)与人工智能(AI)的跨领域技术研发,聚焦多模态感知与大模型优化在智能家居场景的深度应用,具体方向包括: 1. 多模态融合感知:研发基于视觉、语音、环境传感等多源数据的融合算法,构建高精度环境感知系统,实现对用户行为与空间状态的实时理解; 2. 垂域大模型优化:针对智能家居场景优化大模型架构,开发参数高效微调(如LoRA)与轻量化部署方案,提升模型在边缘设备端的推理效率; 3. 智能决策系统:融合多模态感知与大模型分析能力,构建个性化推荐引擎,实现设备联动自动化与场景化服务(如自适应照明、安防预警等)。 【课题名称】 基于多模态感知的IoT垂域大模型应用 【课题内容】 基于多模态感知融合技术的垂域大模型优化方案,拓展智能家居场景应用,实现环境、语音与视觉数据的协同分析与智能决策。

更新于 2025-06-25
logo of vivo
校招

1、探索AIOS及手机AI agent应用场景的技术落地路径,参与基于Android平台的AI应用创新方案设计,从架构层助力提升应用性能与用户交互体验; 2、协同跨职能团队将机器学习、深度学习、自然语言处理等AI技术融入Android应用开发,参与第三方AI库及API的评估与集成技术研究; 3、参与现有系统架构梳理与优化方案探讨,为AI技术演进下的系统可扩展性、易维护性提供技术思路; 4、结合技术视角与产品团队协作,参与产品功能特性、架构框架的技术可行性分析,助力AI技术赋能产品差异化; 5、关注AI解决方案的数据安全、隐私保护及合规性基础要求,参与构建可信AI应用技术体系。

更新于 2025-07-25
logo of soul
社招

近年来,以大模型为核心的生成式人工智能在人机交互和虚拟陪伴领域展现出巨大潜力。我们专注于探索生成式AI在社交场景下的前沿应用和产业落地,致力于打造具备多模态感知与生成能力的社交大模型。 随着大语言模型的快速演进,如何让模型更好地理解多维度信息,并在社交场景中提供自然、细腻、沉浸感十足的语音与多模态交互体验,成为我们的核心研究方向。 如果你对生成式AI、多模态建模和智能交互充满热情,并希望参与构建下一代社交与陪伴大模型,欢迎加入我们,共同突破技术边界。 1. 多模态大模型算法创新:面向社交与智能交互需求,设计与优化模型架构,实现文本、语音、视觉等模态的联合建模,推动行业领先的社交多模态大模型研发。 2. 语音编码与生成算法突破:探索高效语音编码策略,优化离散化与连续特征建模方案,提升语音合成质量和建模效率。 3. 端到端技术闭环:参与或主导从数据构建、模型训练、性能评测到部署上线的完整研发流程。 4. 前沿应用技术探索:紧跟LLM、RL、Diffusion Models等前沿技术发展,探索创新范式并提升模型性能。

更新于 2025-09-09