爬虫逆向工程师简历
一、求职意向
职位: 爬虫工程师
二、简介
具备2年爬虫开发经验的爬虫工程师,专注于数据采集、反爬虫策略应对及爬虫系统架构设计。在JS逆向、验证码识别、Web安全协议分析等领域有扎实的技术积累和实战经验。 熟悉整个数据采集流程,能从静态网页采集到动态渲染处理,具备完整的数据采集、清洗、存储能力。追求代码质量与系统性能优化,能独立解决复杂的技术挑战。
个人信息
- 电话: 157XXXXXXXX
- 邮箱: 1736887140@qq.com
- 所在地: 宁夏
三、教育背景
宁夏大学 · 计算机科学与技术 (2020年9月 - 2024年6月)
四、专业技能(技术栈)
- 编程语言: 熟悉Python,熟悉其异步编程特性(asyncio、aiohttp)、元类、装饰器和对象封装等高级特性,熟悉Fastapi、等主流框架。了解Java、Node.js。
- 网页解析技术: 熟练使用 XPath、CSS Selector、正则表达式。
- 数据存储与处理: 熟练使用 MySQL、MongoDB、Redis(用于缓存、布隆过滤器),了解 Elasticsearch;
- 自动化动态网页处理: 熟悉Selenium、Playwright等自动化测试工具,用于处理复杂的JS渲染页面,解决动态内容加载问题。
- 逆向能力:
- 熟练使用浏览器开发者工具、Fiddler、Charles 等抓包分析工具。
- 熟悉 Cookie/Session保持、请求头熟悉检测 熟悉GET/POST方法等;
- 熟悉常见的处理无限debugger的技巧;
- 熟悉使用浏览器开发者工具进行断点调试、调用栈分析,掌握Object.defineProperty、函数重写、Proxy等Hook核心原理如: document.cookie的读写以分析登录状态;
- 具备扎实的 JS逆向 能力,能分析并破解常见的加密参数(如Base64、MD5、AES、RSA)及OB混淆代码。
- 能分析前端加密参数(如加密参数、签名、Token生成逻辑),寻找加密函数入口;
- 熟练使用浏览器开发者工具进行断点调试、调用栈分析、变量监控等;
- 理解常见的JavaScript混淆(如变量名混淆、控制流扁平化、字符串加密)及解混淆技巧;
- 特殊操作:如控制台呼出检测等;
- Webpack模块化分析:能分析Webpack打包的站点,定位模块加载器及模块导出逻辑,提取关键函数。
- 补环境:熟悉检测浏览器环境的常见指标(如navigator、window、document对象属性),能通过补环境方式(代理) 绕过检测,使Node.js环境更接近真实浏览器。
- 拥有丰富的对抗经验,熟悉IP代理池、Cookie池、User-Agent池 的构建与管理。
- 深度学习技术: 熟悉PyTorch,opencv等框架,熟悉CNN,ResNet以及yolo等模型,熟悉训练验证码的过程;
- 验证码:
- 熟悉图像的基本处理(灰度化、二值化、降噪、分割、识别)
- 熟悉定长图片验证码的训练和推理
- 熟悉不定长图片验证码的训练和推理(长串字符和计算题等)
- 动态验证码(Gif)
- 滑块验证码(有缺口)
- 滑动验证码(整个图像对齐)
- 点选验证码(文字点选,图标点选)
- 九宫格验证码
- 爬虫核心框架: 熟悉Scrapy 框架及其生态组件(Scrapy-Redis),熟练掌握feapder。实现一个类似scrapy架构的custom_spider框架的核心部分,能够进行简单的框架源码开发。
- 系统部署与运维: 熟练使用 Docker 容器化;
- 具备良好的代码风格与文档编写能力,熟悉Git版本控制工具
- 强烈的责任心和团队合作精神,善于沟通协调,能够承担项目压力。
五、项目经验
笔趣阁小说数据采集平台
项目简介:
本项目构建一个小说数据采集系统,通过对笔趣阁小说网站进行多层级定向爬取,实现小说信息、章节内容、作者数据等大规模结构化数据的自动化采集、清洗与存储。项目成功抓取超过50万章节小说数据。
技术栈: Python、Feapder、Xpath、MySQL
框架选型:采用Feapder框架,利用其轻量级及断点续爬的特性
负责内容:
1. 爬取策略:
- 多级页面抓取:设计了小说列表页 → 小说详情页 → 章节列表页 → 章节内容页的四级抓取链路,确保数据完整性。
- 智能去重:使用布隆过滤器(Bloom Filter)对已抓取的URL进行去重,有效避免重复请求。
- 动态请求头轮换:模拟不同浏览器(User-Agent)和IP代理池,有效规避反爬机制。
2. 数据清洗 面对爬取数据的多样性和噪声,实施了多维度清洗规则:
文本规范化:去除章节内容中的非法字符、多余空格和广告文本。
编码统一:将内容统一转换为UTF-8编码,解决乱码问题。
关键字段校验:对小说标题、作者等核心字段进行非空验证和格式校验,对不合格数据打标并记录日志。
章节顺序校准:通过解析章节编号或发布时间,确保章节顺序正确,解决了并发抓取可能导致的乱序问题。
数据量50万+
项目成果与亮点
数据规模:累计稳定抓取1,052部小说信息,涵盖50万章章节内容,形成高质量的小说数据库。
系统性能:爬虫速度达到约400-600章/分钟。
技术亮点: 实现了从爬取、清洗到入库的全流程自动化,无需人工干预。
健壮性高:完善的异常重试机制和监控告警系统,保障了系统长期稳定运行。
可扩展性:模块化设计便于后续扩展支持其他小说网站或增加新的数据字段。
瑞数
项目名称: 某某医院(瑞数6)
项目背景
某医院官网采用了瑞数信息(rs) 推出的第六代动态安全防护技术。该技术通过动态令牌、代码混淆、行为验证等手段,有效拦截自动化工具与爬虫程序的访问。项目目标是通过逆向分析,绕过其反爬机制,实现合规的数据采集。
技术方案: 补环境
瑞数的核心防御机制在于检测浏览器环境是否真实。
项目采用“补环境”技术路线。
核心思路是:在本地构造一个与真实浏览器高度一致的运行环境(包括常见的window、document、navigator等对象及其属性),让瑞数的安全检测脚本误以为代码在真实浏览器中执行,从而生成有效的Cookie。
关键技术点:
- 环境检测点定位:通过拦截代理(如Proxy)全面监控所有访问的BOM/DOM API,精准定位瑞数的检测逻辑。
- 环境模拟与补齐:依据监控结果,逐一补全缺失或伪造不一致的环境变量和函数方法,例如固定时间戳、模拟本地存储等。
负责内容
- 清除cookie,打断点,拿到ts和ts_load两部分
- 拼接代码:分析瑞数返回的动态JS代码,合并生成cookie的所有js代码
- 补环境:负责实现核心的补环境脚本,windwow,document,createElement等等,确保环境通过瑞数的严格检测。
- Cookie生成与验证:确保本地环境能稳定生成有效的Cookie,并且验证请求码是否为200。
极验
项目描述: 极验滑块验证码(缺口)
项目思路: load -> verify -> login 负责内容:
- 下载滑块数据,准备数据集
- 训练滑块验证码(Yolo or ddddocr)
- 接口基本分析
- load -> 提取背景图 captcha_id、lot_number、payload、process_token
- verify -> 分析参数:w (Rsa+Aes加密)
- login(登录请求)
- 逆向
广播剧
项目描述: 批量爬取广播剧
技术栈:python,custom_spider,execjs,time,math,Yolo
框架选型:采用custom_spider框架
负责内容:
- 登录模块: 主要是做了密码登录,使用Yolo编辑了100张的数据过滑块验证码(随机缺口滑块,还是极验那一套..)
- 数据抓取
- 解析每个专辑(album)的所有章节(track),解析章节信息,获取到加密的播放地址
- 对baseInfo返回的加密的播放地址进行js解密
- 批量抓取数据(custom_spider)
六、文档记录
其他
🫎 爬虫攻防技能概览
| 平台 | 已通过题目数 | 核心技术/反爬机制 |
|---|---|---|
| 猿人学 | 30题 | Session会话管理、动态Cookie生成与维护、图像验证码识别、计算题验证码交互、Protobuf协议逆向、二进制数据传输与解码等 |
| SpiderDemo | 15题 | AES/DES/MD5等加密算法逆向、图像验证码识别、计算题验证码交互、滑块验证码破解、Gif验证码解析、滑动验证码对抗等 |
爬虫工具库
| 工具名称 | 网址 | 主要功能 | 适用场景 |
|---|---|---|---|
| SpiderBox | https://spiderbox.cn/ | 文档资料,工具集合和专项领域 | 为爬虫开发者、逆向工程师、安全研究人员提供全面、分类清晰的工具、文档、学习资源导航,帮助用户快速找到所需内容。 |
| Spidertools | https://spidertools.cn/ | JSON格式化、Header格式化、Cookie格式化、Dict格式化、JS格式化、HTML格式化、curl转requests、curl转feapder、url参数提取、url编码/解码、HTML渲染、文本解码、文本对比、时间转换、加解密、JSON转SQL、Base64转图片等 | 爬虫工程师日常调试、请求头构建、数据格式转换 |
| 猿人学工具 | https://tool.yuanrenxue.cn/ | curl转Python、curl转requests、curl转feapder、JSON格式化、Header格式化、Cookie格式化、Dict格式化、JS格式化、HTML格式化、url参数提取、url编码/解码、HTML渲染、文本解码、文本对比、时间转换、加解密、JSON转SQL、Base64转图片等 | 爬虫工程师日常调试、请求头构建、数据格式转换 |
| 八爪鱼 | https://www.bazhuayu.com/ | 可视化数据采集、无需编程、支持300+网站模板、智能识别网页结构、自动IP轮换、验证码识别 | 非编程人员数据采集、电商数据抓取 |
爱好
| 爱好类别 | |
|---|---|
| 旅游 | 曾规划并执行一次为期20天的云南自驾游,负责路线规划、预算控制和应急处理,并整理了详细的攻略。 晕海拔的尤其9-12月走318(海拔4200-5000),以及稻城亚丁等等上山的路会很多要慎重考虑!!!不过大理的山和菌子是真的好!! |
| 游戏 | 英雄联盟(端+手) |
| 健身 | 坚持每周3次锻炼,不仅塑造了健康体魄,更培养了极强的自律性和目标感,能保持精力充沛应对高强度工作。 |
| coding | 喜欢研究代码,喜欢自己手动coding想要的效果 |


