爬虫

分类下相关文章

字体反爬

例如,58同城上的同一个手机号,每次刷新页面时,其映射的字符都在变化。 实际上是每次用的字体映射关系都在变化。 下面就是同一个电话号码的不同字体映射结果。 > python3 Python 3.8.5 (default, Jul 28 2020, 12:59:40) [GCC 9.3.0] on linux Type "help", "copyright", "credits" or "license" for more information. >>> s = " ...

阅读全文...

php 网站爬虫入门 - Goutte

不使用 python scrapy 的原因 虽然我用 python 写爬虫已有多年,但是我越来越想尝试一下用 PHP 来写个爬虫 厌恶了 python 的包管理 scrapy 对于小爬虫来说太繁琐了 python 的 ORM 相对 PHP laravel 的 eloquent 都像是半成品 当然 scrapy 也有不可替代的功能 调试 console,这个无人可替代。chrome console XPath? PHP 的爬虫库 https://github.com/BruceDone/awesome-crawler Goutte 看上去不错,但是活跃度太低,一年也没几次提交。 不过, ...

阅读全文...

代理池

为何要使用代理 IP 很多时候,目标网站对单 IP 的请求有频率限制,如果要最大限度的发挥单机采集效率,就不得不使用代理 IP。甚至是大量的代理 IP。 使用代理的逻辑 建立一个数据表用于存储代理 IP。主要目的是防止不同服务器上的进程使用了同一代理。 每个进程启动时,从数据表里拉取一个可用的 IP,标识为已被使用。最好能够按照响应时间进行排序,优先获取当前延时最小的代理 当一个代理失效后,从数据表表再获取一个代理,并将原代理标识为废弃 定期更新这个数据表 ...

阅读全文...

scrapy

对于很多简单页面,厌倦了一行一行自己写爬虫,所以尝试一下 Scrapy。重点考察 开发效率 异常处理 防封机制 使用教程参考官网 scrapy.org, 写得很细致。 安装 Scrapy sudo pip install scrapy 在 Mac OS 10.11 酋长石系统上报错 build/temp.macosx-10.10-x86_64-2.7/_openssl.c:400:10: fatal error: 'openssl/aes.h' file not found 开始以为是 openssl 没有安装,于是尝试 $ brew install openssl Warning: ...

阅读全文...

爬虫

不错的参考资料 从第三方数据到第一方数据的技术变革 ...

阅读全文...