Puppeteer介绍与实战 - 翔子的博客

是什么#

Puppeteer是 Google Chrome 团队官方的无界面（Headless）Chrome 工具，也被称为是无头浏览器，它是一个 Node 库，提供了一个高级的 API 来控制 DevTools 协议上的无头版 Chrome 。也可以配置为使用完整（非无头）的 Chrome。Chrome 在浏览器中的地位不必多说，因此，Chrome Headless 必将成为 web 应用自动化测试的行业标杆。使用 Puppeteer，相当于同时具有 Linux 和 Chrome 双端的操作能力，应用场景非常之多，本文最后会基于 puppeteer 写一个 jenkins 控制台部署命令来进行实战演练。

能做什么#

你可以在浏览器中手动完成的大部分事情都可以使用 Puppeteer 完成！你可以从以下几个示例开始：

创建一个最新的自动化测试环境。使用最新的 JavaScript 和浏览器功能，直接在最新版本的 Chrome 中运行测试。

入门示例#

想要在项目中使用 Puppeteer，只需要运行如下命令安装即可；不过要注意的是：Puppeteer 至少需要 Node v6.4.0，如要使用 async / await，只有 Node v7.6.0 或更高版本才支持；另外，安装 Puppeteer 时，它会下载最新版本的 Chromium（〜71Mb Mac，〜90Mb Linux，〜110Mb Win），保证与 API 协同工作。

1
yarn add puppeteer

对于如何使用 Puppeteer，这非常之容易；如下简易的示例，即实现了：导航到 https://example.com 并将截屏保存为 example.png；

1
const puppeteer = require('puppeteer')
2
;(async () => {
3
  const browser = await puppeteer.launch()
4
  const page = await browser.newPage()
5
  await page.goto('https://example.com')
6
  await page.screenshot({ path: 'example.png' })
7
  await browser.close()
8
})()

API 介绍#

api 文档地址 https://pptr.dev/api

Puppeteer API 分层结构#

Puppeteer 中的 API 分层结构基本和浏览器保持一致，下面对常使用到的几个类介绍一下：

Browser：对应一个浏览器实例，一个 Browser 可以包含多个 BrowserContext
BrowserContext：对应浏览器一个上下文会话，就像我们打开一个普通的 Chrome 之后又打开一个隐身模式的浏览器一样，BrowserContext 具有独立的 Session(cookie 和 cache 独立不共享)，一个 BrowserContext 可以包含多个 Page
Page：表示一个 Tab 页面，通过 browserContext.newPage()/browser.newPage() 创建，browser.newPage() 创建页面时会使用默认的 BrowserContext，一个 Page 可以包含多个 Frame
Frame: 一个框架，每个页面有一个主框架（page.MainFrame()）,也可以多个子框架，主要由 iframe 标签创建产生的
ExecutionContext：是 javascript 的执行环境，每一个 Frame 都一个默认的 javascript 执行环境
ElementHandle: 对应 DOM 的一个元素节点，通过该该实例可以实现对元素的点击，填写表单等行为，我们可以通过选择器，xPath 等来获取对应的元素
JsHandle：对应 DOM 中的 javascript 对象，ElementHandle 继承于 JsHandle，由于我们无法直接操作 DOM 中对象，所以封装成 JsHandle 来实现相关功能
CDPSession：可以直接与原生的 CDP 进行通信，通过 session.send 函数直接发消息，通过 session.on 接收消息，可以实现 Puppeteer API 中没有涉及的功能
Coverage：获取 JavaScript 和 CSS 代码覆盖率

如何创建一个 Browser 实例#

puppeteer 提供了两种方法用于创建一个 Browser 实例：

puppeteer.connect: 连接一个已经存在的 Chrome 实例
puppeteer.launch: 每次都启动一个 Chrome 实例

1
const puppeteer = require('puppeteer')
2
let request = require('request-promise-native')
3
//使用 puppeteer.launch 启动 Chrome
4
;(async () => {
5
  const browser = await puppeteer.launch({
6
    headless: false, //有浏览器界面启动
7
    slowMo: 100, //放慢浏览器执行速度，方便测试观察
8
    args: [
9
      //启动 Chrome 的参数，详见上文中的介绍
10
      '–no-sandbox',
11
      '--window-size=1280,960',
12
    ],
13
  })
14
  const page = await browser.newPage()
15
  await page.goto('https://www.baidu.com')
16
  await page.close()
17
  await browser.close()
18
})()
19
//使用 puppeteer.connect 连接一个已经存在的 Chrome 实例
20
;(async () => {
21
  //通过 9222 端口的 http 接口获取对应的 websocketUrl
22
  let version = await request({
23
    uri: 'http://127.0.0.1:9222/json/version',
24
    json: true,
25
  })
26
  //直接连接已经存在的 Chrome
27
  let browser = await puppeteer.connect({
28
    browserWSEndpoint: version.webSocketDebuggerUrl,
29
  })
30
  const page = await browser.newPage()
31
  await page.goto('https://www.baidu.com')
32
  await page.close()
33
  await browser.disconnect()
34
})()

这两种方式的对比：

puppeteer.launch 每次都要重新启动一个 Chrome 进程，启动平均耗时 100 到 150 ms，性能欠佳
puppeteer.connect 可以实现对于同一个 Chrome 实例的共用，减少启动关闭浏览器的时间消耗
puppeteer.launch 启动时参数可以动态修改
通过 puppeteer.connect 我们可以远程连接一个 Chrome 实例，部署在不同的机器上
puppeteer.connect 多个页面共用一个 chrome 实例，偶尔会出现 Page Crash 现象，需要进行并发控制，并定时重启 Chrome 实例

如何等待加载？#

在实践中我们经常会遇到如何判断一个页面加载完成了，什么时机去截图，什么时机去点击某个按钮等问题，那我们到底如何去等待加载呢？

下面我们把等待加载的 API 分为三类进行介绍：

加载导航页面#

page.goto：打开新页面
page.goBack ：回退到上一个页面
page.goForward ：前进到下一个页面
page.reload ：重新加载页面
page.waitForNavigation：等待页面跳转

Pupeeteer 中的基本上所有的操作都是异步的，以上几个 API 都涉及到关于打开一个页面，什么情况下才能判断这个函数执行完毕呢，这些函数都提供了两个参数 waitUtil 和 timeout，waitUtil 表示直到什么出现就算执行完毕，timeout 表示如果超过这个时间还没有结束就抛出异常。

1
await page.goto('https://www.baidu.com', {
2
   timeout: 30 * 1000,
3
   waitUntil: [
4
       'load',              //等待 “load” 事件触发
5
       'domcontentloaded',  //等待 “domcontentloaded” 事件触发
6
       'networkidle0',      //在 500ms 内没有任何网络连接
7
       'networkidle2'       //在 500ms 内网络连接个数不超过 2 个
8
   ]
9
});

以上 waitUtil 有四个事件，业务可以根据需求来设置其中一个或者多个触发才以为结束，networkidle0 和 networkidle2 中的 500ms 对时间性能要求高的用户来说，还是有点长的

等待元素、请求、响应#

page.waitForXPath：等待 xPath 对应的元素出现，返回对应的 ElementHandle 实例
page.waitForSelector ：等待选择器对应的元素出现，返回对应的 ElementHandle 实例
page.waitForResponse ：等待某个响应结束，返回 Response 实例
page.waitForRequest：等待某个请求出现，返回 Request 实例

1
await page.waitForXPath('//img');
2
await page.waitForSelector('#uniqueId');
3
await page.waitForResponse('https://d.youdata.netease.com/api/dash/hello');
4
await page.waitForRequest('https://d.youdata.netease.com/api/dash/hello');
5
复制代码

自定义等待#

如果上面提供的等待方式都不能满足我们的需求，puppeteer 还提供我们提供两个函数：

page.waitForFunction：等待在页面中自定义函数的执行结果，返回 JsHandle 实例
page.waitFor：设置等待时间，实在没办法的做法

1
await page.goto(url, {
2
    timeout: 120000,
3
    waitUntil: 'networkidle2'
4
});
5
//我们可以在页面中定义自己认为加载完的事件，在合适的时间点我们将该事件设置为 true
6
//以下是我们项目在触发截图时的判断逻辑，如果 renderdone 出现且为 true 那么就截图，如果是 Object，说明页面加载出错了，我们可以捕获该异常进行提示
7
let renderdoneHandle = await page.waitForFunction('window.renderdone', {
8
    polling: 120
9
});
10
const renderdone = await renderdoneHandle.jsonValue();
11
if (typeof renderdone === 'object') {
12
    console.log(`加载页面失败：报表${renderdone.componentId}出错 -- ${renderdone.message}`);
13
}else{
14
    console.log('页面加载成功');
15
}

基于 puppeteer 开发 jenkins 控制台部署命令#

1
const chalk = require('chalk')
2
const fs = require('fs')
3
const path = require('path')
4
const inquirer = require('inquirer')
5
const { exec } = require('child_process')
6
const oneLineLog = require('single-line-log').stdout
7
const jenkinsPageUrl = 'https://jenkins.qmpoa.com/job/BetaFE_qmp_pc_ddm_new_bjqtable/build?delay=0sec'
8
const configFilePath =  path.join(__dirname, './jenkins_user_config')
9
const configJoinChar = ' '
10
const envFilePath = path.join(__dirname, './jenkins_env')
11
const branchChangedErrorMessage = 'remote branch changed'
12
let browser
13
const autoBuild = async () => {
14
  try {
15
    console.log(chalk.yellow('启动中···'))
16
    browser = await require('puppeteer').launch({
17
      // headless: false,
18
      // executablePath: '/Applications/Google Chrome.app/Contents/MacOS/Google Chrome'
19
    })
20
    const page = await browser.newPage()
21
    console.log(chalk.yellow('页面初始化中···'))
22
    await page.goto(jenkinsPageUrl)
23
    let userConfig
24
    if (fs.existsSync(configFilePath)) {
25
      userConfig = fs.readFileSync(configFilePath, 'utf-8').replace('\r', '').replace('\n', '')
26
    }
27
    if (!userConfig) { // 没有存配置文件，或配置文件没有内容，视为第一次使用
28
      console.log(chalk.yellow('未检测到用户信息，请先登录'))
29
      userConfig = await getUserConfig()
30
    }
31
    await login(page, ...userConfig.split(configJoinChar))
32
    // await page.waitForNavigation()
33
    console.log(chalk.yellow('数据获取中···'))
34
    await page.waitForResponse(res => {
35
      return res.url().includes('mbranch')
36
    })
37
    await page.waitForTimeout(100)
38
    const localBranch = await getCurrentGitBranch()
39
    const remoteBranch = `origin/${localBranch}`
40
    const jenkinsPageBranches = await page.$$eval('#gitParameterSelect option', (nodes) => {
41
      return nodes.map(e => e.innerText)
42
    })
43
    // console.log(remoteBranch, jenkinsPageBranches)
44
    if (!jenkinsPageBranches.includes(remoteBranch)) {
45
      if (jenkinsPageBranches.length) {
46
        await new Promise((resolve, reject) => {
47
          exec(`git push origin ${localBranch} -u`, () => {
48
            reject({ message: branchChangedErrorMessage })
49
          })
50
        })
51
      }
52
      // console.log(chalk.yellowBright(`远程分支「${remoteBranch}」找不到，请检查！`))
53
      // process.exit(1)
54
    }
55
    await page.select('#gitParameterSelect', remoteBranch) // 在页面设置分支
56
    const buildInfo = { branch: remoteBranch }
57
    // 找对应的环境
58
    const jenkinsEnv = await getJenkinsEnv()
59
    const envSelector = '[value="DEPLOYPATH"] + select'
60
    const jenkinsPageEnvOptions = await page.$$eval(envSelector + ' option', (nodes) => {
61
      return nodes.map(e => e.innerText)
62
    })
63
    // console.log(jenkinsEnv, jenkinsPageEnvOptions)
64
    if (!jenkinsPageEnvOptions.includes(jenkinsEnv)) {
65
      console.log(chalk.yellowBright(`jenkins没有部署${jenkinsEnv}环境，请先部署！`))
66
      console.log(chalk.blue(jenkinsPageUrl))
67
      process.exit(1)
68
    }
69
    await page.select(envSelector, jenkinsEnv) // 在页面设置环境
70
    buildInfo.env = jenkinsEnv
71
    if (process.argv.includes('--install')) { // 重新安装依赖
72
      await page.click('.jenkins-checkbox')
73
      buildInfo.reinstall = true
74
    }
75
    const buildId = await getBuildSerialNumber(page)
76
    await page.click('button[name="Submit"]')
77
    console.log(chalk.yellow('已加入构建任务'))
78
    console.log(chalk.cyanBright(
79
      `构建参数:  ${Object.entries(buildInfo).map(([k, v]) => `${k}:${chalk.greenBright(v)}`).join('  ')}`
80
    ))
81
    await page.waitForNavigation()
82
    let prevStatus
83
    const timer = setInterval(async () => {
84
      const status = await handleBuildStatus(page, buildId, prevStatus)
85
      if (status !== 'Pending' &amp;&amp; status !== 'In progress') {
86
        clearInterval(timer)
87
        process.exit(0)
88
      }
89
      prevStatus = status
90
    }, 400)
91
  } catch (e) {
92
    console.log(chalk.red(e.message))
93
    if (e.message.includes('Cannot find module \'puppeteer\'')) {
94
      console.log(chalk.red('请更新依赖'))
95
      process.exit(1)
96
    } else {
97
      if (e.message.includes(branchChangedErrorMessage)) {
98
        console.log(chalk.yellow('分支已更新，正在重新加载'))
99
      } else {
100
        console.log(chalk.yellow('未知错误，正在尝试重新启动'))
101
      }
102
      if (browser) {
103
        await browser.close()
104
      }
105
      autoBuild()
106
    }
107
  }
108
}
109
autoBuild()
110
async function getCurrentGitBranch() {
111
  return new Promise((resolve, reject) => {
112
    // 高版本git使用命令 git branch --show-current
113
    exec('git rev-parse --abbrev-ref HEAD', (err, res) => {
114
      if (err) {
115
        reject(err)
116
      } else {
117
        resolve(res.replace('\r', '').replace('\n', ''))
118
      }
119
    })
120
  })
121
}
122
async function chooseEnv() {
123
  const { isClientEnv, branches } = require('../../branch.config')
124
  const devBranches = branches
125
    .filter(item => !isClientEnv(item.name))
126
    .map(item => {
127
      return { ...item, value: item.name }
128
    })
129
  const branch = await inquirer.prompt([
130
    {
131
      type: 'list',
132
      name: 'branch',
133
      message: '选择部署环境',
134
      choices: devBranches
135
    }
136
  ])
137
  return branch.branch
138
}
139
async function getJenkinsEnv() {
140
  let env
141
  if (process.argv.includes('--set-env')) {
142
    env = await chooseEnv()
143
  } else {
144
    if (fs.existsSync(envFilePath)) {
145
      env = fs.readFileSync(envFilePath, 'utf-8')
146
    }
147
    if (!env) {
148
      env = await chooseEnv()
149
    }
150
  }
151
  env = env.toLowerCase().replace('ddm', '').replace('\r', '').replace('\n', '')
152
  return `qmp_pc_ddm${env ? '_' + env : ''}`
153
}
154
async function getUserConfig() {
155
  const uname = (await inquirer.prompt({
156
    type: 'input',
157
    name: 'uname',
158
    message: '用户名：'
159
  })).uname
160
  const pwd = (await inquirer.prompt({
161
    type: 'password',
162
    name: 'pwd',
163
    message: '密码：'
164
  })).pwd
165
  return `${uname}${configJoinChar}${pwd}`
166
}
167
async function fillLoginForm(page, uname = '', pwd = '') {
168
  await page.type('[name="j_username"]', uname)
169
  await page.type('[name="j_password"]', pwd)
170
  await page.click('[name="Submit"]')
171
  try {
172
    await page.waitForResponse(res => {
173
      // console.log(res.url())
174
      return res.url().includes('loginError')
175
    }, { timeout: 1000 })
176
  } catch (e) {
177
    // 没捕获到该请求，说明登录通过了
178
    // 将用户名和密码存到配置文件里
179
    fs.writeFile(configFilePath, `${uname}${configJoinChar}${pwd}`, () => {})
180
    return true
181
  }
182
  console.log(chalk.red('登录用户名或密码错误，请重新输入!'))
183
  return false
184
}
185
async function login(page, uname = '', pwd = '') {
186
  let isPassed
187
  do {
188
    isPassed = await fillLoginForm(page, uname, pwd)
189
    if (!isPassed) {
190
      ([uname, pwd] = (await getUserConfig()).split(configJoinChar))
191
    }
192
  } while (!isPassed)
193
}
194
async function getBuildSerialNumber(page) {
195
  const text = await page.$eval('.build-row', e => e.innerText)
196
  const idNum = parseInt(text.match(/#(\d+)/)[1])
197
  return idNum + 1
198
}
199
let pendingTipDotCount = 0
200
const maxPendingTipDotCount = 6
201
async function handleBuildStatus(page, buildId, prevStatus) {
202
  // 几种情况 排队中 构建中 已取消 已失败 已成功
203
  let status
204
  try {
205
    const attr = await page.$eval(`a.build-status-link[href*='${buildId}']`, e => e.getAttribute('tooltip'))
206
    if (attr) {
207
      status = ['Success', 'In progress', 'Failed', 'Aborted'].find(status => attr.startsWith(status))
208
      if (status === 'Aborted') {
209
        oneLineLog.clear()
210
        oneLineLog('')
211
        console.log(chalk.gray('构建被取消！'))
212
      } else if (status === 'Failed') {
213
        oneLineLog.clear()
214
        oneLineLog('')
215
        console.log(chalk.red('构建失败！'))
216
      } else if (status === 'Success') {
217
        oneLineLog.clear()
218
        oneLineLog('')
219
        console.log(chalk.green('构建成功！'))
220
      } else if (status === 'In progress') {
221
        if (prevStatus !== status) {
222
          oneLineLog.clear()
223
          oneLineLog('')
224
          console.log(chalk.cyanBright('开始构建:'))
225
        }
226
        const width = await page.$eval(`.progress-bar[href*='${buildId}'] .progress-bar-done`, e => e.style.width)
227
        oneLineLog(chalk.blue(`任务${buildId}: 构建进度${width}`))
228
      }
229
    }
230
  } catch (e) {
231
    // 没找到是pending
232
    status =  'Pending'
233
    const pendingList = await page.$$('.svg-icon.icon-nobuilt, .svg-icon[class*="-anime"]')
234
    const pendingLength = pendingList.length > 1 ? pendingList.length - 1 : 0
235
    if (pendingLength) {
236
      if (pendingTipDotCount < maxPendingTipDotCount) {
237
        pendingTipDotCount += 1
238
      } else {
239
        pendingTipDotCount = 0
240
      }
241
      oneLineLog(chalk.blue(`排队中，前面还有${pendingLength}个任务${Array(pendingTipDotCount).fill('·').join('')}`))
242
    }
243
  }
244
  return status
245
}

package.json添加命令

1
"jk": "node ./bin/jenkins/index.js",
2
"jki": "node ./bin/jenkins/index.js --install",
3
"jkn": "node ./bin/jenkins/index.js --set-env",
4
"jkin": "node ./bin/jenkins/index.js --install --set-env",
5
"jkni": "yarn jkin",

控制台运行：

音乐

音乐