字节跳动抖音健康策略运营-AI安全评测方向
任职要求
1、本科及以上学历,有医疗背景或经验优先;
2、了解大语言模型技术优先,有LLMs相关的评测或分析工作经验优先;
3、对数据敏感…工作职责
1、负责抖音健康大模型的安全评测,开展持续评测、专项评测、迭代评测等项目,对评测质量、数量和效率负责; 2、基于评测数据,能进行有效深入的数据分析并产出有观点有建议的分析报告,支持产品和策略迭代优化; 3、了解前沿的评测方法和工具,探索并引入更高效、更智能的评测方式,持续提升评测工作的效能和科学性; 4、与业务团队紧密协同,对齐评测标准、评测数据,推动评测体系紧跟业务目标,并能在团队内有效开展评测培训。
1、负责医疗大模型安全能力建设,围绕医疗安全、伦理合规、偏见与公平性等方向,定义医疗大模型的安全能力边界,并持续推动能力落地和效果提升; 2、基于对医疗应用场景和风险的理解,抽象医疗大模型安全能力,并拆解为模型训练和评测所需的能力体系、任务树与评估标准,与算法研发团队协作推进安全策略落地; 3、设计和制定医疗大模型安全相关的评测标准与评测方法,包括但不限于规则评测、Rubric评测、对抗式评测等,构建可量化、可迭代的安全评测体系; 4、负责医疗大模型安全评测数据的采集、构建与维护,探索高质量人工数据与合成数据相结合的数据生产方式,确保数据质量满足安全评测和模型对齐的要求; 5、对模型安全评测结果进行分析和总结,识别模型在安全、伦理和偏见等方面的风险点,与算法团队协作,将评测结论转化为可执行的训练和优化策略,推动模型安全能力持续提升; 6、跟进大模型安全、对齐和评测领域的前沿研究与行业实践,并结合医疗场景特点,持续优化医疗大模型安全能力建设方法论。
1、负责设计和建立全面、科学的大模型评测体系,涵盖性能、效果、安全性、可用性等多维度的指标与方法,持续追踪行业领先的大模型; 2、负责定义自研语音助手大模型和智能体的能力标准,构建评测体系和评测工具,对线上用户实际使用体验进行分析和跟踪; 3、负责横向与友商语音助手进行对比评测,分析产品优劣势,为产品迭代优化提供指导方向; 4、与模块产品、数据生产、标注、算法、测试团队通力合作,推动提升领域模型效果,牵引产品体验和能力提升;
1. 统一知识库架构设计:负责美团搜索推荐(搜推)平台的数据基建建设,设计并开发基于AI搜索的统一知识库架构,整合多模态数据(结构化/非结构化),构建高效检索增强系统。 2. 数据服务与系统集成:对接搜索推荐核心系统,优化查询理解、召回排序等环节的数据服务能力,支持高并发场景下的实时响应;构建知识库增量更新与版本管理机制,确保法律政策、行业数据等信息的实时性与一致性。 3. AI技术融合与性能优化:集成大模型推理、检索增强生成(RAG)、深度反思等技术,提升知识库在搜索场景中的语义理解与决策能力;针对超大规模数据处理场景,优化分布式训练加速、资源调度及容错机制,保障系统稳定性。
1. 负责CV内容安全防控体系搭建,建立CV内容审核能力、大模型安全评测能力、大模型可控生成能力,保证业务安全及大模型应用安全,利用视觉大模型解决业务安全风控需求; 2. 视觉大模型:参与视觉大模型风控的数据、算法、策略等完整体系建设,负责CV分类all-in-one、图像特征检索、开集OCR、视觉理解等算法研发,在业务场景打造行业一流的视觉大模型安全风控体系; 3、岗位特色:应对全风险问题,快速提升综合算法能力,与大模型时代发展同步,深耕大模型安全领域,持续积累安全领域业务经验; 4、业务支持:保障夸克AI、通义千问ToC、UC浏览器、书旗小说、超级汇川等产品的内容安全及大模型安全; 5、部门特色:作为综合型安全中台,包含法务、GA、公关、数安、内安、商安等职能,协同共建为业务提供全面安全保障。