2020
07-31

python爬虫神器Headless Chrome浏览器的安装及使用

Headless Chrome

headless chrome 无头浏览器是一种没有操作界面的浏览器,常用于网页自动化测试,利用其提供的API,可以自动执行操作指令,它是测试利器,也是爬虫神器

在浏览器中手动完成的大多数事情都可以通过使用 Puppeteer 完成,下面是一些入门的例子:

生成屏幕截图和 PDF 页面
检索 SPA 并生成预渲染内容(即“SSR”)
从网站上爬取内容

自动提交表单,UI测试,键盘输入等

这就是为爬虫准备的啊,一个命令行控制的浏览器。

爬虫神器Headless Chrome浏览器

什么是Headless Chrome?

在Chrome59中开始搭载Headless Chrome。这是一种在无需显示headless的环境下运行Chrome 浏览器的方式。从本质上来说,就是不用Chrome浏览器来运行Chrome的功能!它将Chromium和Blink渲染引擎提供的所有现代Web平台的功能都带入了命令行。

headless其实是Chrome浏览器的一种特性,可以在无图形界面的情况下解析网站资源

intoli

开始安装之前我们来了解一下这家公司

我们(intoli)是一家在数据采集,处理和分析方面具有深厚专业知识的咨询机构。

安装Headless Chrome

intoli在其博客上介绍了几种安装Headless Chrome的方式,我们采用如下方式安装:

curl https://intoli.com/install-google-chrome.sh | bash

安装完成提示:

Successfully installed Google Chrome!

intoli安装文档

运行chrome

我们可以通过如下命令来启动Chrome,同时将博客截图保存

google-chrome-stable --no-sandbox --headless --disable-gpu --screenshot https://aisoa.cn

Chromedriver

chromedriver可以前往淘宝镜像下载,同时通过下面命令进行验证:

./chromedriver

Starting ChromeDriver 73.0.3683.68 (47787ec04b6e38e22703e856e101e840b65afe72) on port 9515
Only local connections are allowed.
Please protect ports used by ChromeDriver and related test frameworks to prevent access by malicious code.

如果有如上输出则表示驱动正常运行

如无特殊说明,解压密码均为:aisoa.cn

您可能感兴趣的文章

支付宝打赏支付宝打赏微信打赏微信打赏