Skip to content

爬虫逆向工程师简历

一、求职意向

职位: 爬虫工程师

二、简介

具备2年爬虫开发经验的爬虫工程师,专注于数据采集、反爬虫策略应对及爬虫系统架构设计。在JS逆向、验证码识别、Web安全协议分析等领域有扎实的技术积累和实战经验。 熟悉整个数据采集流程,能从静态网页采集到动态渲染处理,具备完整的数据采集、清洗、存储能力。追求代码质量与系统性能优化,能独立解决复杂的技术挑战。

个人信息

三、教育背景

宁夏大学 · 计算机科学与技术 (2020年9月 - 2024年6月)

四、专业技能(技术栈)

  • 编程语言: 熟悉Python,熟悉其异步编程特性(asyncio、aiohttp)、元类、装饰器和对象封装等高级特性,熟悉Fastapi、等主流框架。了解Java、Node.js。
  • 网页解析技术: 熟练使用 XPath、CSS Selector、正则表达式。
  • 数据存储与处理: 熟练使用 MySQL、MongoDB、Redis(用于缓存、布隆过滤器),了解 Elasticsearch;
  • 自动化动态网页处理: 熟悉Selenium、Playwright等自动化测试工具,用于处理复杂的JS渲染页面,解决动态内容加载问题。
  • 逆向能力
    • 熟练使用浏览器开发者工具、Fiddler、Charles 等抓包分析工具。
    • 熟悉 Cookie/Session保持、请求头熟悉检测 熟悉GET/POST方法等;
    • 熟悉常见的处理无限debugger的技巧;
    • 熟悉使用浏览器开发者工具进行断点调试、调用栈分析,掌握Object.defineProperty、函数重写、Proxy等Hook核心原理如: document.cookie的读写以分析登录状态;
    • 具备扎实的 JS逆向 能力,能分析并破解常见的加密参数(如Base64、MD5、AES、RSA)及OB混淆代码。
    • 能分析前端加密参数(如加密参数、签名、Token生成逻辑),寻找加密函数入口;
    • 熟练使用浏览器开发者工具进行断点调试、调用栈分析、变量监控等;
    • 理解常见的JavaScript混淆(如变量名混淆、控制流扁平化、字符串加密)及解混淆技巧;
    • 特殊操作:如控制台呼出检测等;
    • Webpack模块化分析:能分析Webpack打包的站点,定位模块加载器及模块导出逻辑,提取关键函数。
    • 补环境:熟悉检测浏览器环境的常见指标(如navigator、window、document对象属性),能通过补环境方式(代理) 绕过检测,使Node.js环境更接近真实浏览器。
    • 拥有丰富的对抗经验,熟悉IP代理池、Cookie池、User-Agent池 的构建与管理。
  • 深度学习技术: 熟悉PyTorch,opencv等框架,熟悉CNN,ResNet以及yolo等模型,熟悉训练验证码的过程;
  • 验证码
    • 熟悉图像的基本处理(灰度化、二值化、降噪、分割、识别)
    • 熟悉定长图片验证码的训练和推理
    • 熟悉不定长图片验证码的训练和推理(长串字符和计算题等)
    • 动态验证码(Gif)
    • 滑块验证码(有缺口)
    • 滑动验证码(整个图像对齐)
    • 点选验证码(文字点选,图标点选)
    • 九宫格验证码
  • 爬虫核心框架: 熟悉Scrapy 框架及其生态组件(Scrapy-Redis),熟练掌握feapder。实现一个类似scrapy架构的custom_spider框架的核心部分,能够进行简单的框架源码开发。
  • 系统部署与运维: 熟练使用 Docker 容器化;
  • 具备良好的代码风格与文档编写能力,熟悉Git版本控制工具
  • 强烈的责任心和团队合作精神,善于沟通协调,能够承担项目压力。

五、项目经验

笔趣阁小说数据采集平台

项目简介
本项目构建一个小说数据采集系统,通过对笔趣阁小说网站进行多层级定向爬取,实现小说信息、章节内容、作者数据等大规模结构化数据的自动化采集、清洗与存储。项目成功抓取超过50万章节小说数据。
技术栈: Python、Feapder、Xpath、MySQL
框架选型:采用Feapder框架,利用其轻量级及断点续爬的特性
负责内容

1. 爬取策略:

  • 多级页面抓取:设计了小说列表页 → 小说详情页 → 章节列表页 → 章节内容页的四级抓取链路,确保数据完整性。
  • 智能去重:使用布隆过滤器(Bloom Filter)对已抓取的URL进行去重,有效避免重复请求。
  • 动态请求头轮换:模拟不同浏览器(User-Agent)和IP代理池,有效规避反爬机制。

2. 数据清洗 面对爬取数据的多样性和噪声,实施了多维度清洗规则:

文本规范化:去除章节内容中的非法字符、多余空格和广告文本。
编码统一:将内容统一转换为UTF-8编码,解决乱码问题。
关键字段校验:对小说标题、作者等核心字段进行非空验证和格式校验,对不合格数据打标并记录日志。
章节顺序校准:通过解析章节编号或发布时间,确保章节顺序正确,解决了并发抓取可能导致的乱序问题。
数据量50万+

项目成果与亮点
数据规模:累计稳定抓取1,052部小说信息,涵盖50万章章节内容,形成高质量的小说数据库。
系统性能:爬虫速度达到约400-600章/分钟。
技术亮点: 实现了从爬取、清洗到入库的全流程自动化,无需人工干预。
健壮性高:完善的异常重试机制和监控告警系统,保障了系统长期稳定运行。
可扩展性:模块化设计便于后续扩展支持其他小说网站或增加新的数据字段。

瑞数

项目名称: 某某医院(瑞数6)
项目背景
某医院官网采用了瑞数信息(rs)​ 推出的第六代动态安全防护技术。该技术通过动态令牌、代码混淆、行为验证等手段,有效拦截自动化工具与爬虫程序的访问。项目目标是通过逆向分析,绕过其反爬机制,实现合规的数据采集。

技术方案: 补环境

瑞数的核心防御机制在于检测浏览器环境是否真实。
项目采用“补环境”技术路线。
核心思路是:在本地构造一个与真实浏览器高度一致的运行环境(包括常见的window、document、navigator等对象及其属性),让瑞数的安全检测脚本误以为代码在真实浏览器中执行,从而生成有效的Cookie。

关键技术点:

  1. 环境检测点定位:通过拦截代理(如Proxy)全面监控所有访问的BOM/DOM API,精准定位瑞数的检测逻辑。
  2. 环境模拟与补齐:依据监控结果,逐一补全缺失或伪造不一致的环境变量和函数方法,例如固定时间戳、模拟本地存储等。

负责内容

  1. 清除cookie,打断点,拿到ts和ts_load两部分
  2. 拼接代码:分析瑞数返回的动态JS代码,合并生成cookie的所有js代码
  3. 补环境:负责实现核心的补环境脚本,windwow,document,createElement等等,确保环境通过瑞数的严格检测。
  4. Cookie生成与验证:确保本地环境能稳定生成有效的Cookie,并且验证请求码是否为200。

极验

项目描述: 极验滑块验证码(缺口)
项目思路: load -> verify -> login 负责内容:

  1. 下载滑块数据,准备数据集
  2. 训练滑块验证码(Yolo or ddddocr)
  3. 接口基本分析
  • load -> 提取背景图 captcha_id、lot_number、payload、process_token
  • verify -> 分析参数:w (Rsa+Aes加密)
  • login(登录请求)
  1. 逆向

广播剧

项目描述: 批量爬取广播剧
技术栈:python,custom_spider,execjs,time,math,Yolo
框架选型:采用custom_spider框架
负责内容:

  1. 登录模块: 主要是做了密码登录,使用Yolo编辑了100张的数据过滑块验证码(随机缺口滑块,还是极验那一套..)
  2. 数据抓取
    • 解析每个专辑(album)的所有章节(track),解析章节信息,获取到加密的播放地址
    • 对baseInfo返回的加密的播放地址进行js解密
    • 批量抓取数据(custom_spider)


六、文档记录


其他

🫎 爬虫攻防技能概览

平台已通过题目数核心技术/反爬机制
猿人学30题Session会话管理、动态Cookie生成与维护、图像验证码识别、计算题验证码交互、Protobuf协议逆向、二进制数据传输与解码等
SpiderDemo15题AES/DES/MD5等加密算法逆向、图像验证码识别、计算题验证码交互、滑块验证码破解、Gif验证码解析、滑动验证码对抗等

爬虫工具库

工具名称网址主要功能适用场景
SpiderBoxhttps://spiderbox.cn/文档资料,工具集合和专项领域为爬虫开发者、逆向工程师、安全研究人员提供全面、分类清晰的工具、文档、学习资源导航,帮助用户快速找到所需内容。
Spidertoolshttps://spidertools.cn/JSON格式化、Header格式化、Cookie格式化、Dict格式化、JS格式化、HTML格式化、curl转requests、curl转feapder、url参数提取、url编码/解码、HTML渲染、文本解码、文本对比、时间转换、加解密、JSON转SQL、Base64转图片等爬虫工程师日常调试、请求头构建、数据格式转换
猿人学工具https://tool.yuanrenxue.cn/curl转Python、curl转requests、curl转feapder、JSON格式化、Header格式化、Cookie格式化、Dict格式化、JS格式化、HTML格式化、url参数提取、url编码/解码、HTML渲染、文本解码、文本对比、时间转换、加解密、JSON转SQL、Base64转图片等爬虫工程师日常调试、请求头构建、数据格式转换
八爪鱼https://www.bazhuayu.com/可视化数据采集、无需编程、支持300+网站模板、智能识别网页结构、自动IP轮换、验证码识别非编程人员数据采集、电商数据抓取

爱好

爱好类别
旅游曾规划并执行一次为期20天的云南自驾游,负责路线规划、预算控制和应急处理,并整理了详细的攻略。 晕海拔的尤其9-12月走318(海拔4200-5000),以及稻城亚丁等等上山的路会很多要慎重考虑!!!不过大理的山和菌子是真的好!!
游戏英雄联盟(端+手)
健身坚持每周3次锻炼,不仅塑造了健康体魄,更培养了极强的自律性和目标感,能保持精力充沛应对高强度工作。
coding喜欢研究代码,喜欢自己手动coding想要的效果