阿里云瓴羊-全栈开发专家-数据采集方向-杭州/北京
任职要求
1、计算机相关专业本科及以上学历,5年以上Android,ios、web、小程序数据采集经验; 2、精通Python,熟悉HTTP/HTTPS协议、HTML/XML解析(如BeautifulSoup、XPath、lxml); 3、熟悉主流爬虫框架(如Scrapy、Playwright、Selenium、puppeteer); 4、熟悉数据库操作(MySQL、MongoDB等),具备数据存储与处理能力; 5、了解基本的反爬机制及应对方案(如验证码识别、IP池管理); 6、熟悉常见 Android Java层和native层的hook攻防方案; 7、熟悉 Android ,ios app 常用加壳、混淆、异常环境监测机制; 8、熟悉 网络通讯、代理机制,抓包、https、ssl pinning 、proxy机制; 9、熟练使用 Fiddler,Charles,mitmproxy,TCPDump,Wireshark等网络分析工具; 10、熟练使用 Jadx,Jeb,Xposed,Ida,Frida 等逆向工具; 11、熟悉各端(android、ios、web、小程序等)调试与加解密技术,能够独立补环境完成接口封装。 加分项 1、有分布式爬虫开发经验(如使用Redis、Celery、Apache Nutch) 2、熟悉JavaScript渲染页面抓取(如Puppeteer、Playwright) 3、熟悉桌面RPA相关技术,使用过影刀、八爪鱼、EasySpider等采集工具 4、了解机器学习/图像识别技术(用于验证码破解) 5、具备数据合规性意识,熟悉网络爬虫相关法律法规(如《数据安全法》) 6、有开源爬虫项目贡献或技术博客分享经验 7、对于内容数据探查有自己独到的见解 8、有大模型数据集建设的经验
工作职责
1、研究并实现高并发、分布式的网络爬虫系统,支持大规模数据采集需求 2、逆向Android/ios app、sdk、web和小程序,脱壳、反编译、抓包、拦截、加解密破解和数据传输分析等 3、开发数据清洗、存储及自动化处理流程,对接数据库或大数据平台(如MySQL、MongoDB、Hadoop、OSS、ODPS、Redis等) 4、优化爬虫性能,提升数据抓取效率与成功率,降低资源消耗 5、与数据、产品各方协作,支持智能营销业务场景(如营销日历、营销策略、营销内容生成等)落地
1、负责自研安全系统的开发维护,包括网络准入控制(NAC)、零信任(Zero Trust)、统一设备安全管控(UEM)的核心功能优化及管理界面迭代; 2、能够对通用安全场景建模,独立设计一个中等复杂度的闭环业务系统; 3、整合集成不同三方系统或平台,构建出健壮、低耦合、易扩展的业务系统; 4、利用数据采集、处理、分析,以可视化的方法呈现系统的业务价值; 5、持续关注业内发展趋势和最佳实践,推动团队技术水平的提升,并分享技术经验和知识。
-熟悉汽车客户的业务场景和技术架构,深挖痛点需求 -围绕智能驾驶、车联网数据、智能制造等场景,设计从数据采集、特征工程到模型部署的全链路解决方案 -设计符合车规级要求的车联网数据中台方案,解决海量多模态数据(视觉/雷达/GPS等)的存储、治理与实时计算场景需求 -编写行业白皮书、解决方案手册及标书技术方案,支撑客户招投标流程 -面向汽车行业Top客户开展商机挖掘和促成客户转化,完成业务开拓目标 -对接客户CTO/数据部门负责人,主导技术交流、需求调研及价值传递 -联合云服务商、车载芯片厂商等生态伙伴打造联合解决方案,构建行业影响力 -跟踪行业趋势(如自动驾驶数据闭环、车云一体化等),提炼标准化解决方案并推动产品化落地
团队介绍:TikTok是一个覆盖150个国家和地区的国际短视频平台,我们希望通过TikTok发现真实、有趣的瞬间,让生活更美好。TikTok 在全球各地设有办公室,全球总部位于洛杉矶和新加坡,办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok研发团队,旨在实现TikTok业务的研发工作,搭建及维护业界领先的产品。加入我们,你能接触到包括用户增长、社交、直播、电商C端、内容创造、内容消费等核心业务场景,支持产品在全球赛道上高速发展;也能接触到包括服务架构、基础技术等方向上的技术挑战,保障业务持续高质量、高效率、且安全地为用户服务;同时还能为不同业务场景提供全面的技术解决方案,优化各项产品指标及用户体验。 在这里, 有大牛带队与大家一同不断探索前沿, 突破想象空间。 在这里,你的每一行代码都将服务亿万用户。在这里,团队专业且纯粹,合作氛围平等且轻松。目前在北京,上海,杭州、广州、深圳分别开放多个岗位机会。 1、负责TikTok离线包业务,旨在为各类有预加载资源需求的业务提供全方位技术支持,其涵盖三大核心板块:客户SDK、面向用户的在线资源下发平台,以及供开发者上传离线资源的平台; 2、平台建设:介入内部平台的搭建工作,负责产品需求的收集、研讨及功能定义,确保平台功能精准契合用户需求; 3、全栈项目推进:参与项目的全栈开发,包括PC-Web端的前端构建,以及基于Node.js的后端服务开发; 4、架构设计与技术攻坚:承担项目架构的设计与落地工作,针对项目推进过程中的技术难题开展专项攻坚; 5、项目优化升级:持续提升所负责项目的架构合理性,优化性能与稳定性,同时致力于提高研发效率,推动项目高效迭代发展; 6、开发者社区维护:负责运营使用离线包的开发者社区,提供即时的oncall支持和社区运营。