请输入图形验证码(不区分大小写)
蓝小山
24岁 / 北京海淀
爬虫开发工程师
生日:2003. 06
学历:本科
籍贯:上海蓝山
政治面貌:党员
电话:00000000000
Jianli@qq.com
自我评价
计算机专业应届生,精通Python+Scrapy/requests/Selenium 技术栈,可独立完成爬虫全流程开发。于实习及校内项目中,实现电商、就业、学术等多场景爬虫,成功突破 IP 封锁、JS 加密等反爬机制,并优化爬虫效率。曾将爬取时间缩短 70%,数据成功率达 98%+。持续通过 GitHub 学习分布式、异步爬虫技术,渴望在团队实践中提升能力,赋能业务。
教育背景
2021.09 - 2025.06 XX 大学 计算机科学与技术(数据工程方向) 本科
· 核心课程:Python 编程基础、网络爬虫技术实战、数据结构与算法、数据库原理(MySQL/MongoDB)、HTTP 协议解析、反爬策略与突破、数据清洗与预处理、Linux 系统应用
· 成绩排名:专业前 22%(58 人 / 年级),《电商平台商品数据爬虫设计》课程作业获 “校级优质技术项目”,2023-2024 学年获 “专业学习积极分子” 称号
实习实践
2024.07 - 2024.09 XX 数据科技有限公司 爬虫开发实习生
Ø 基于 Scrapy 框架开发电商平台商品爬虫,覆盖 3 个品类、500 + 店铺,实现商品标题、价格、销量数据定时抓取(每日更新),数据抓取成功率达 98.5%,异常数据率控制在 1.2% 以内
Ø 针对目标网站反爬机制(UA 验证、IP 封锁),设计 “动态 UA 池 + 代理 IP 轮换” 策略,解决 80% 的反爬拦截问题,爬虫运行稳定性提升 40%
Ø 将爬取的 10 万 + 条原始数据用 Pandas 清洗、去重后,存入 MongoDB 数据库,编写数据校验脚本,确保数据完整性,支撑后端数据分析模块高效调用
校内实践
2023.03 - 2024.06 校 “数据挖掘创新团队” 爬虫模块负责人
· 牵头 “校园就业信息采集” 项目,开发多线程爬虫(Python+requests),抓取 10 + 所高校就业网招聘信息,每日更新 200 + 条岗位数据,为 500 + 同学提供精准就业信息,获 “校级优秀学生项目”
· 优化爬虫代码结构,将单线程爬取效率提升至多线程(8 线程),单批次数据抓取时间从 40 分钟缩短至 12 分钟,同时降低服务器请求压力
2022.10 - 2023.05 院计算机技术社团 爬虫技术组组长
组织 4 场 “Python 爬虫入门” 分享会,覆盖 150 + 人次,编写《爬虫基础实战手册》(含 5 个案例:天气数据、新闻资讯、图书信息等),帮助 30 + 零基础同学掌握基础爬虫开发
带领 5 人小组完成 “学术文献摘要采集” 小项目,使用 Selenium 模拟浏览器操作,突破文献网站登录验证,采集 2000 + 篇相关领域文献摘要,辅助老师完成课题研究
荣誉奖励
l 2024 年 全国大学生信息安全竞赛(数据采集与分析类) 省级三等奖(作品:《多源数据分布式爬虫系统》)
l 2023-2024 学年 校级 “程序设计大赛” 二等奖(爬虫与数据处理赛道)
l 2023 年 阿里云 Python 专业级认证(PCEP)
l 2022-2023 学年 校级 “优秀学生干部”(社团工作方向)
l 2023 年 计算机二级证书(Python 语言程序设计)