15 分钟用 ML 破解一个验证码系统
人人都恨验证码——那些恼人的图片,显示着你在登陆某网站前得输入的文本。设计验证码的目的是,通过验证你是真实的人来避免电脑自动填充表格。但是随着深度学习和计算机视觉的兴起,现在验证码常常易被攻破。
2018/02/03
六月
1235
揭密微信跳一跳小游戏那些外挂
本着钻研技术的学习态度,我对目前几款比较火的外挂进行了源码分析,总结出了它们的一些破解思路,其实这些作者都并非恶意,作为一个程序员,还有什么比用技术挑战规则,突破极限要有成就感呢?
2018/01/24
六月
1134
Python使用pyquery抓取股票行情数据实例
最近由于公司业务上的需求,要网络采集一些数据,并格式化以供应用的调取,前期想到用正则表达式来对网页格式串进行过滤和抓取,在进行了一系列尝试之后放弃,原因是太繁琐了,而且对于每种网页都需要写特定的表达式,不可通用。 后面在查找相关资料时,发现python也提供一个类似jquery的包,叫做pyquery,可用以进行网络抓取,遂安装研究了一下,发现确实挺好用,不...
2017/12/30
六月
1341
用requests爬虫拒绝301/302页面的重定向而拿到Location(重定向页面URL)的方法
def yunsite(): 'url' headers = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'Accept-Encoding': 'gzip, deflate, sdch, br', ...
2017/12/18
六月
1346
pyspider 爬虫教程
pyspider简介pyspider 爬虫教程(一):HTML 和 CSS 选择器pyspider 爬虫教程(二):AJAX 和 HTTPpyspider 爬虫教程(三):使用 PhantomJS 渲染带 JS 的页面
2017/12/08
六月
1231
小白学爬虫-批量部署Splash负载集群
部署公司生产环境的Splash集群无奈节点太多 差点被搞死·· 还好我有运维神器Ansible,一次编撰终生可用啊!而且这玩意儿 等幂特性 扩容回滚 So Easy!!闲话少说开搞!安装Ansible:看官方文档去:http://www.ansible.com.cn/index.html好像这个主控端不支持Windows? 大家虚拟机装个Ubuntu吧。闲话少扯直...
2017/12/06
六月
1544