Skip to content

爬虫逆向工程师简历

一、简介

具备2年爬虫开发经验的中级爬虫工程师,专注于大规模数据采集、反爬虫策略应对及爬虫系统架构设计。在JS逆向、验证码识别、Web安全协议分析等领域有扎实的技术积累和实战经验。熟悉整个数据采集流程,能从静态网页采集到动态渲染处理,从单机爬虫到分布式系统架构,具备完整的数据采集、清洗、存储及运维能力。追求代码质量与系统性能优化,能独立解决复杂的技术挑战。

个人信息

  • 电话: 133XXXXXXXX
  • 邮箱: 1736887140@qq.com
  • 所在地: 上海
  • GitHub: [你的GitHub主页链接]
  • 技术博客: [你的博客链接,可选]

求职意向

  • 职位: 资深爬虫工程师 / 爬虫开发专家
  • 行业: 互联网、金融科技、大数据服务

二、教育背景

  • 学士,网络工程,宁夏大学(2020年9月 - 2024年6月)

三、专业技能(技术栈)

  • 计算机基础: 深入理解 HTTP/HTTPS、TCP/IP 协议,熟悉Web前端技术(HTML/CSS/JavaScript/Ajax)。掌握常用的数据结构和算法
  • 编程语言: 熟悉Python,熟悉其异步编程特性(asyncio、aiohttp)、元类、装饰器和对象封装等高级特性,熟悉Fastapi、等主流框架。了解Java、Node.js,可用于工具编写和扩展。
  • 网页解析技术: 熟练使用 XPath、CSS Selector、正则表达式。
  • 数据存储与处理: 熟练使用 MySQL、MongoDB、Redis(用于缓存、队列、布隆过滤器)。了解 Elasticsearch、Kafka 用于大数据流处理。
  • 自动化动态网页处理: 熟悉Selenium、Playwright、Puppeteer(通过Pyppeteer)等自动化测试工具,用于处理复杂的JS渲染页面,解决动态内容加载问题。
  • 逆向工程能力
    • 熟练使用浏览器开发者工具、Fiddler、Charles 等抓包分析工具。分析网络请求,拦截和修改APP与服务器间的通信。
    • 熟悉 Cookie/Session保持、请求头熟悉检测 熟悉GET/POST方法等;
    • 熟悉常见的处理无限debugger的技巧;
    • 精通使用浏览器开发者工具进行断点调试、调用栈分析,掌握Object.defineProperty、函数重写、Proxy等Hook核心原理如: document.cookie的读写以分析登录状态;
    • 具备扎实的 JS逆向 能力,能分析并破解常见的加密参数(如Base64、MD5、AES、RSA)及OB混淆代码。
    • 能分析前端加密参数(如加密参数、签名、Token生成逻辑),寻找加密函数入口;
    • 熟练使用浏览器开发者工具进行断点调试、调用栈分析、变量监控等;
    • 理解常见的JavaScript混淆(如变量名混淆、控制流扁平化、字符串加密)及解混淆技巧;
    • 特殊操作:如控制台呼出检测等;
    • Webpack模块化分析:能分析Webpack打包的站点,定位模块加载器及模块导出逻辑,提取关键函数。
    • 浏览器环境模拟与补环境:熟悉检测浏览器环境的常见指标(如navigator、window、document对象属性),能通过补环境方式(代理)绕过检测,使Node.js环境更接近真实浏览器。
    • 拥有丰富的对抗经验,熟悉IP代理池、Cookie池、User-Agent池 的构建与管理。
  • 深度学习技术: 熟悉TensorFlow、PyTorch等框架,熟悉CNN,以及训练验证码的过程
  • 验证码:能处理简单图像验证码(如灰度化、二值化、降噪、分割、识别)及滑动验证码(如计算滑动距离、模拟轨迹),能应对验证码(对接打码平台或使用Tesseract/深度学习模型识别)、行为检测等反爬手段。
  • 爬虫核心框架: 熟悉Scrapy 框架及其生态组件(Scrapy-Redis),熟练掌握feapder。实现一个类似scrapy架构的custom_spider框架的核心部分,能够进行简单的框架源码级定制和开发。
  • 系统部署与运维: 熟练使用 Docker 容器化部署爬虫项目,了解 Kubernetes(K8s) 基础概念。有使用 Prometheus、Grafana 等工具搭建爬虫监控报警系统的经验。
  • 具备良好的代码风格与文档编写能力,熟悉Git版本控制工具
  • 强烈的责任心和团队合作精神,善于沟通协调,能够承担项目压力。

四、项目经验

社交媒体数据抓取

  • 项目简介:为某社交媒体分析平台提供数据抓取服务,获取用户行为数据、话题数据等。
  • 技术栈:Python、Requests、BeautifulSoup、MySQL
  • 负责内容:编写爬虫程序,实现数据的抓取、存储和清洗。

社交平台自动化与数据采集系统(2022年8月-2023年6月)

  • 项目描述:针对某社交平台(如微博、抖音等),开发自动化账号管理(发帖、评论、点赞)及公开数据采集系统。
  • 技术挑战与解决方案
    • 环境检测与绕过:平台采用浏览器指纹检测(Canvas, WebGL)及行为分析(鼠标移动、点击频率)区分真人用户与爬虫。通过Puppeteer/Playwright Extra Stealth模式隐藏自动化特征,并模拟人类操作间隔(随机延时)绕过行为检测。
    • Webpack模块分析:站点核心JavaScript代码经Webpack打包。通过分析Webpack的模块加载器(如webpackJsonp)及源码映射(Source Map),定位到负责参数加密的模块,提取关键函数到Python环境中执行。
    • 账号安全与Cookie管理:平台对异常登录有检测。通过维护Cookie池定期更新会话,并模拟真实用户访问路径(如先浏览首页再跳转详情)降低账号异常风险。
  • 成果:实现目标平台用户基本信息、发帖、评论等数据的稳定采集;开发的自动化系统持续正常运行。