爬虫逆向工程师简历

一、求职意向

职位：爬虫工程师

二、简介

具备2年爬虫开发经验的爬虫工程师，专注于数据采集、反爬虫策略应对及爬虫系统架构设计。在JS逆向、验证码识别、Web安全协议分析等领域有扎实的技术积累和实战经验。熟悉整个数据采集流程，能从静态网页采集到动态渲染处理，具备完整的数据采集、清洗、存储能力。追求代码质量与系统性能优化，能独立解决复杂的技术挑战。

个人信息

电话： 157XXXXXXXX
邮箱： 1736887140@qq.com
所在地：宁夏

三、教育背景

宁夏大学 · 计算机科学与技术（2020年9月 - 2024年6月）

四、专业技能（技术栈）

编程语言：熟悉Python，熟悉其异步编程特性（asyncio、aiohttp）、元类、装饰器和对象封装等高级特性，熟悉Fastapi、等主流框架。了解Java、Node.js。
网页解析技术：熟练使用 XPath、CSS Selector、正则表达式。
数据存储与处理：熟练使用 MySQL、MongoDB、Redis（用于缓存、布隆过滤器），了解 Elasticsearch;
自动化动态网页处理：熟悉Selenium、Playwright等自动化测试工具，用于处理复杂的JS渲染页面，解决动态内容加载问题。
逆向能力：
- 熟练使用浏览器开发者工具、Fiddler、Charles 等抓包分析工具。
- 熟悉 Cookie/Session保持、请求头熟悉检测熟悉GET/POST方法等；
- 熟悉常见的处理无限debugger的技巧；
- 熟悉使用浏览器开发者工具进行断点调试、调用栈分析，掌握Object.defineProperty、函数重写、Proxy等Hook核心原理如： document.cookie的读写以分析登录状态；
- 具备扎实的 JS逆向能力，能分析并破解常见的加密参数（如Base64、MD5、AES、RSA）及OB混淆代码。
- 能分析前端加密参数（如加密参数、签名、Token生成逻辑），寻找加密函数入口；
- 熟练使用浏览器开发者工具进行断点调试、调用栈分析、变量监控等；
- 理解常见的JavaScript混淆（如变量名混淆、控制流扁平化、字符串加密）及解混淆技巧；
- 特殊操作：如控制台呼出检测等；
- Webpack模块化分析：能分析Webpack打包的站点，定位模块加载器及模块导出逻辑，提取关键函数。
- 补环境：熟悉检测浏览器环境的常见指标（如navigator、window、document对象属性），能通过补环境方式(代理) 绕过检测，使Node.js环境更接近真实浏览器。
- 拥有丰富的对抗经验，熟悉IP代理池、Cookie池、User-Agent池的构建与管理。
深度学习技术: 熟悉PyTorch，opencv等框架，熟悉CNN，ResNet以及yolo等模型，熟悉训练验证码的过程;
验证码：
- 熟悉图像的基本处理（灰度化、二值化、降噪、分割、识别）
- 熟悉定长图片验证码的训练和推理
- 熟悉不定长图片验证码的训练和推理(长串字符和计算题等)
- 动态验证码(Gif)
- 滑块验证码(有缺口)
- 滑动验证码(整个图像对齐)
- 点选验证码(文字点选，图标点选)
- 九宫格验证码
爬虫核心框架：熟悉Scrapy 框架及其生态组件（Scrapy-Redis），熟练掌握feapder。实现一个类似scrapy架构的custom_spider框架的核心部分，能够进行简单的框架源码开发。
系统部署与运维：熟练使用 Docker 容器化;
具备良好的代码风格与文档编写能力，熟悉Git版本控制工具
强烈的责任心和团队合作精神，善于沟通协调，能够承担项目压力。

五、项目经验

笔趣阁小说数据采集平台

项目简介：
本项目构建一个小说数据采集系统，通过对笔趣阁小说网站进行多层级定向爬取，实现小说信息、章节内容、作者数据等大规模结构化数据的自动化采集、清洗与存储。项目成功抓取超过50万章节小说数据。
技术栈： Python、Feapder、Xpath、MySQL
框架选型：采用Feapder框架，利用其轻量级及断点续爬的特性
负责内容：

1. 爬取策略：

多级页面抓取：设计了小说列表页 → 小说详情页 → 章节列表页 → 章节内容页的四级抓取链路，确保数据完整性。
智能去重：使用布隆过滤器（Bloom Filter）对已抓取的URL进行去重，有效避免重复请求。
动态请求头轮换：模拟不同浏览器（User-Agent）和IP代理池，有效规避反爬机制。

2. 数据清洗 面对爬取数据的多样性和噪声，实施了多维度清洗规则：

文本规范化：去除章节内容中的非法字符、多余空格和广告文本。
编码统一：将内容统一转换为UTF-8编码，解决乱码问题。
关键字段校验：对小说标题、作者等核心字段进行非空验证和格式校验，对不合格数据打标并记录日志。
章节顺序校准：通过解析章节编号或发布时间，确保章节顺序正确，解决了并发抓取可能导致的乱序问题。
数据量50万+

项目成果与亮点
数据规模：累计稳定抓取1,052部小说信息，涵盖50万章章节内容，形成高质量的小说数据库。
系统性能：爬虫速度达到约400-600章/分钟。
技术亮点：实现了从爬取、清洗到入库的全流程自动化，无需人工干预。
健壮性高：完善的异常重试机制和监控告警系统，保障了系统长期稳定运行。
可扩展性：模块化设计便于后续扩展支持其他小说网站或增加新的数据字段。

瑞数

项目名称： 某某医院(瑞数6)
项目背景
某医院官网采用了瑞数信息（rs）推出的第六代动态安全防护技术。该技术通过动态令牌、代码混淆、行为验证等手段，有效拦截自动化工具与爬虫程序的访问。项目目标是通过逆向分析，绕过其反爬机制，实现合规的数据采集。

技术方案： 补环境

瑞数的核心防御机制在于检测浏览器环境是否真实。
项目采用“补环境”技术路线。
核心思路是：在本地构造一个与真实浏览器高度一致的运行环境（包括常见的window、document、navigator等对象及其属性），让瑞数的安全检测脚本误以为代码在真实浏览器中执行，从而生成有效的Cookie。

关键技术点：

环境检测点定位：通过拦截代理（如Proxy）全面监控所有访问的BOM/DOM API，精准定位瑞数的检测逻辑。
环境模拟与补齐：依据监控结果，逐一补全缺失或伪造不一致的环境变量和函数方法，例如固定时间戳、模拟本地存储等。

负责内容

清除cookie，打断点，拿到ts和ts_load两部分
拼接代码：分析瑞数返回的动态JS代码，合并生成cookie的所有js代码
补环境：负责实现核心的补环境脚本，windwow，document，createElement等等，确保环境通过瑞数的严格检测。
Cookie生成与验证：确保本地环境能稳定生成有效的Cookie，并且验证请求码是否为200。

极验

项目描述： 极验滑块验证码(缺口)
项目思路： load -> verify -> login 负责内容：

下载滑块数据，准备数据集
训练滑块验证码(Yolo or ddddocr)
接口基本分析

load -> 提取背景图 captcha_id、lot_number、payload、process_token
verify -> 分析参数：w (Rsa+Aes加密)
login(登录请求)

逆向

广播剧

项目描述： 批量爬取广播剧
技术栈：python,custom_spider，execjs，time，math,Yolo
框架选型：采用custom_spider框架
负责内容：

登录模块: 主要是做了密码登录，使用Yolo编辑了100张的数据过滑块验证码(随机缺口滑块,还是极验那一套..)
数据抓取
- 解析每个专辑（album）的所有章节（track），解析章节信息，获取到加密的播放地址
- 对baseInfo返回的加密的播放地址进行js解密
- 批量抓取数据(custom_spider)

六、文档记录

其他

🫎 爬虫攻防技能概览

平台	已通过题目数	核心技术/反爬机制
猿人学	30题	Session会话管理、动态Cookie生成与维护、图像验证码识别、计算题验证码交互、Protobuf协议逆向、二进制数据传输与解码等
SpiderDemo	15题	AES/DES/MD5等加密算法逆向、图像验证码识别、计算题验证码交互、滑块验证码破解、Gif验证码解析、滑动验证码对抗等

爬虫工具库

工具名称	网址	主要功能	适用场景
SpiderBox	https://spiderbox.cn/	文档资料,工具集合和专项领域	为爬虫开发者、逆向工程师、安全研究人员提供全面、分类清晰的工具、文档、学习资源导航，帮助用户快速找到所需内容。
Spidertools	https://spidertools.cn/	JSON格式化、Header格式化、Cookie格式化、Dict格式化、JS格式化、HTML格式化、curl转requests、curl转feapder、url参数提取、url编码/解码、HTML渲染、文本解码、文本对比、时间转换、加解密、JSON转SQL、Base64转图片等	爬虫工程师日常调试、请求头构建、数据格式转换
猿人学工具	https://tool.yuanrenxue.cn/	curl转Python、curl转requests、curl转feapder、JSON格式化、Header格式化、Cookie格式化、Dict格式化、JS格式化、HTML格式化、url参数提取、url编码/解码、HTML渲染、文本解码、文本对比、时间转换、加解密、JSON转SQL、Base64转图片等	爬虫工程师日常调试、请求头构建、数据格式转换
八爪鱼	https://www.bazhuayu.com/	可视化数据采集、无需编程、支持300+网站模板、智能识别网页结构、自动IP轮换、验证码识别	非编程人员数据采集、电商数据抓取

爱好

爱好类别
旅游	曾规划并执行一次为期20天的云南自驾游，负责路线规划、预算控制和应急处理，并整理了详细的攻略。晕海拔的尤其9-12月走318(海拔4200-5000)，以及稻城亚丁等等上山的路会很多要慎重考虑！！！不过大理的山和菌子是真的好！！
游戏	英雄联盟(端+手)
健身	坚持每周3次锻炼，不仅塑造了健康体魄，更培养了极强的自律性和目标感，能保持精力充沛应对高强度工作。
coding	喜欢研究代码，喜欢自己手动coding想要的效果

爬虫逆向工程师简历

一、求职意向

二、简介

三、教育背景

四、专业技能（技术栈）

五、项目经验

笔趣阁小说数据采集平台

瑞数

极验

广播剧

六、文档记录

云橙雨编程 - 文档站

CSDN

Gitee

其他

🫎 爬虫攻防技能概览

爬虫工具库

爱好

爬虫逆向工程师简历 ​

一、求职意向 ​

二、简介 ​

三、教育背景 ​

四、专业技能（技术栈） ​

五、项目经验 ​

笔趣阁小说数据采集平台 ​

瑞数 ​

极验 ​

广播剧 ​

六、文档记录 ​

云橙雨编程 - 文档站

CSDN

Gitee

其他 ​

🫎 爬虫攻防技能概览 ​

爬虫工具库 ​

爱好 ​

爬虫逆向工程师简历

一、求职意向

二、简介

三、教育背景

四、专业技能（技术栈）

五、项目经验

笔趣阁小说数据采集平台

瑞数

极验

广播剧

六、文档记录

其他

🫎 爬虫攻防技能概览

爬虫工具库

爱好