HTTP 基本原理

HTTP请求 响应 状态码
2023/01/04   六月   634

15 分钟用 ML 破解一个验证码系统

人人都恨验证码——那些恼人的图片,显示着你在登陆某网站前得输入的文本。设计验证码的目的是,通过验证你是真实的人来避免电脑自动填充表格。但是随着深度学习和计算机视觉的兴起,现在验证码常常易被攻破。
2018/02/03   六月   1235

揭密微信跳一跳小游戏那些外挂

本着钻研技术的学习态度,我对目前几款比较火的外挂进行了源码分析,总结出了它们的一些破解思路,其实这些作者都并非恶意,作为一个程序员,还有什么比用技术挑战规则,突破极限要有成就感呢?
2018/01/24   六月   1134

Scrapy分布式的部署详解

Scrapy分布式的部署详解
2018/01/20   六月   1264

Scrapy分布式架构搭建抓取知乎

Scrapy分布式架构搭建抓取知乎
2018/01/20   六月   1197

Scrapy分布式原理及Scrapy-Redis源码解析

Scrapy分布式原理及Scrapy-Redis源码解析
2018/01/20   六月   1202

Python使用pyquery抓取股票行情数据实例

最近由于公司业务上的需求,要网络采集一些数据,并格式化以供应用的调取,前期想到用正则表达式来对网页格式串进行过滤和抓取,在进行了一系列尝试之后放弃,原因是太繁琐了,而且对于每种网页都需要写特定的表达式,不可通用。    后面在查找相关资料时,发现python也提供一个类似jquery的包,叫做pyquery,可用以进行网络抓取,遂安装研究了一下,发现确实挺好用,不...
2017/12/30   六月   1341

用requests爬虫拒绝301/302页面的重定向而拿到Location(重定向页面URL)的方法

def yunsite(): 'url' headers = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'Accept-Encoding': 'gzip, deflate, sdch, br', ...
2017/12/18   六月   1346

pyspider 爬虫教程

pyspider简介pyspider 爬虫教程(一):HTML 和 CSS 选择器pyspider 爬虫教程(二):AJAX 和 HTTPpyspider 爬虫教程(三):使用 PhantomJS 渲染带 JS 的页面
2017/12/08   六月   1231

小白学爬虫-批量部署Splash负载集群

部署公司生产环境的Splash集群无奈节点太多 差点被搞死··  还好我有运维神器Ansible,一次编撰终生可用啊!而且这玩意儿 等幂特性 扩容回滚 So Easy!!闲话少说开搞!安装Ansible:看官方文档去:http://www.ansible.com.cn/index.html好像这个主控端不支持Windows? 大家虚拟机装个Ubuntu吧。闲话少扯直...
2017/12/06   六月   1544
1/2