美团反爬算法工程师
任职要求
1、良好的数据结构和算法基础,熟练掌握C/C++/Python/Java/Shell等编程语言(其中之一)。 2、熟悉常用的数据挖掘与机器学习算法,对算法原理、实现、优化有较深入了解;精通传统机器学习中的聚类/分类或者深度学习中的至少一种算法, 用至少一种算法在以下任一领域有过比较突出的产出,如:推荐、广告、NLP、图像识别,有异常点检测相关经验尤佳。 3、业务理解能力强…
工作职责
1、根据各类爬虫特点,应用机器学习&深度学习&AI技术,针对海量信息,解决业务痛点,保障业务健康发展。 2、基于各类行为数据、业务数据、设备指纹数据等,通过算法有效赋能,有效刻画用户/商户/设备的风险服务。 3、根据分析结果设计解决方案,完成模型的选取、训练、测试和上线以及后续模型的优化。
1. 负责验证码图形识别算法的研发与优化,包括但不限于字符识别、目标检测、图像分割等技术。 2. 研究并应对常见的验证码对抗技术(如扭曲、干扰线、噪声、动态背景等),提升识别准确率和鲁棒性。 3. 结合风控场景,设计反爬策略,识别和防御自动化工具(如爬虫、脚本)的攻击。 4. 跟踪业界前沿图形识别与反爬技术,持续优化现有模型和算法。 5. 与风控团队协作,输出技术方案并推动落地。 6. 研发视频动态验证码的OCR识别技术,包括视频帧提取、动态文字追踪、多帧融合等。 7. 针对视频中的干扰(如模糊、抖动、动态背景)优化OCR模型,提升识别准确率。 8. 研究并应对视频验证码的对抗技术(如闪烁文字、随机位移、颜色变换等)。 9. 结合时序分析技术(如LSTM、3D-CNN)处理视频流中的文字识别问题。 10. 与团队协作,将视频OCR技术集成到风控系统中,防御自动化攻击。
1、负责小红书虚假账号、流量风控(API流量)、设备群控 风险治理 2、体系化构建风险域识别框架,将被动对抗转化为自动对抗 3、负责风险数据梳理和通用特征建设,聚焦用户行为分析、设备指纹、网络接口特征、业务上下文等多维度数据建模 4、对多类风险问题进行算法调研和新算法开发,形成算法库,为算法平台提供支持
1、负责小红书虚假账号、流量风控(API流量)、设备群控 风险治理 2、体系化构建风险域识别框架,将被动对抗转化为自动对抗 3、负责风险数据梳理和通用特征建设,聚焦用户行为分析、设备指纹、网络接口特征、业务上下文等多维度数据建模 4、对多类风险问题进行算法调研和新算法开发,形成算法库,为算法平台提供支持
网页解析与结构化抽取:基于千亿级网页数据,研发通用网页解析算法,实现HTML 结构理解、正文提取、广告识别、页面去重等功能,提升大规模网页解析能力。 URL 归一化:优化 URL 解析与去重策略,提升爬虫抓取效率、内容聚合能力,构建高质量索引库。 页面质量评估:基于机器学习(ML)+ 自然语言处理(NLP)+ 规则工程,构建高质量内容筛选算法,识别低质量/垃圾/重复页面,提高训练数据质量。 知识抽取与语义理解:基于BERT/GPT/LLM 等技术,解析网页、文档、视频等多模态内容,构建网页内容理解、网页分类、实体识别等模型,助力大模型训练数据优化。 搜索数据优化:结合大模型能力+外部索引库,优化爬虫抓取策略,提升数据覆盖率、时效性,服务于搜索与问答产品。 爬虫数据分析与反爬对抗:基于数据挖掘分析网页特征,优化反爬检测、爬虫模拟行为、动态渲染等策略,提高数据采集成功率。 网页知识图谱构建:结合NLP、CV、OCR、知识图谱等技术,从网页、视频等内容中抽取实体、关系、事件等信息,构建高质量知识库。