牛逼,看完它,你就可以自己开发爬虫了
很多人问写爬虫用什么语言比较好,其实就和谈恋爱一样,没有最好的,只有最合适的,选择你最熟悉最顺手的语言就好。今年各种需求不断,写了几个爬虫,都是用的 nodejs。
这里总结一些用 nodejs 写爬虫的常用手段,学会了,就能爬取大部分网页了。开发爬虫的技巧很多也是复用的,记录下来,日后能省不少事。
基本请求网页方法
用 got 发送 Get 和 Post 请求,返回值均为 Promise,可以使用 async/await 和 Promise.all 来控制流程。
// 习惯使用 got
const got = require('got');
// get
client.get(url);
// post formdata
const FormData = require('form-data');
const form = new FormData();
form.append('name', 'admin');
got.post(url, {
body: form
});
// post json
got.post(url, {
json: {
page: 2
},
responseType: 'json'
});
伪装浏览器
通过设置 User-Agent 来模拟浏览器行为。现在很多服务器都会检查 User-Agent 来进行初步的反爬,设置 User-Agent 是很重要的一步。
got.get(url, {
headers: {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36'
}
})
也可以通过下面的方式,来为每个请求带上 User-Agent,当然其他参数也是一样的。
// 所有通过 client 发起的请求均会带上 extend 里传入的参数
const client = got.extend({
headers: {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36'
}
});
client.get(url);
取消自动重定向
这里要说明一点,got 默认会自动进行重定向,并返回重定向后的返回值,而部分网站需要处理动态的 Cookie 才能得到正确的结果,自动重定向可能会使用不正确的 Cookie 导致结果永远不对,因此还是老老实实手动重定向吧。
client.get(url, {
followRedirect: false // 取消自动重定向
});
获取特定 Cookie 的值
Cookie 通常用于用户的身份鉴别,偶尔也用于加密反爬。写爬虫经常需要和它打交道,但是读取 Cookie 的值不是很方便,这里提供一个方法来简单的获取所需要的 Cookie 值,该方法同样适用于获取 Set-Cookie 的值。
// 来自 stackoverflow: https://stackoverflow.com/questions/5142337/read-a-javascript-cookie-by-name
// 稍微做了点修改
function getCookie(cookiename, cookies) {
// Get name followed by anything except a semicolon
let cookiestring = RegExp(cookiename+"=[^;]+").exec(cookies);
// Return everything after the equal sign, or an empty string if the cookie name not found
return decodeURIComponent(!!cookiestring ? cookiestring.toString().replace(/^[^=]+./,"") : "");
}
Sleep
做爬虫也要讲文明,要在不影响对方服务的前提下进行,所以要控制爬虫的速率。但是 nodejs 本身并没有像 python 那样的 time.sleep() 方法,因此要自己实现一个。
function sleep(time = 0) {
return new Promise((resolve, reject) => {
setTimeout(() => {
resolve();
}, time);
});
}
页面解析
可以使用正则表达式来解析页面,比任何解析器都要强大。
想学习和在线测试正则表达式,强烈推荐到 RegExr,全是简单的英文,很好懂。
除了正则,npm 上有很多做 HTML 解析的包,最常用也最多人用的就是 cheerio。
用法很简单,和 jquery 一摸一样。
const cheerio = require('cheerio');
// 设置 decodeEntities 为 false,为了防止中文被解码。
const $ = cheerio.load(html, { decodeEntities: false });
// 然后就把 $ 当作 jquery 用就好了
$('body').text();
当然,你也可以用 jquery,只不过需要 mock window 和 document 对象,所以需要配合 jsdom 来食用。
const { JSDOM } = require( "jsdom" );
const { window } = new JSDOM( "" );
const $ = require( "jquery" )( window );
使用代理
使用爬虫经常会碰到 IP 被封的情况,各种原因,要看具体的反爬机制,要是不幸中招,就需要使用代理来换一个 IP 继续爬。此外,一些国外网站可能被 GFW 阻挡,导致无法访问,如:P站,这时候就要使用魔法上网,同样需要通过代理的方式进行。
教你魔法上网:正确的科学上网方式
got 有一个 agent 参数,配合 tunnel 可以实现代理。
const tunnel = require('tunnel');
got.get(url, {
agent: {
https: tunnel.httpsOverHttp({
proxy: {
host: '127.0.0.1:6152' // 代理地址及端口
}
})
}
});
多进程并行爬取
javascript 是单线程的,nodejs 因此也一样,但是现在普遍多核的大背景下,nodejs 早就意识到了这点,为了能够充分的“压榨”机器的性能,nodejs 推出一个内置模块 – cluster。没错,单机集群,由一个父进程管理一群子进程。
这样就可以通过多个子进程的方式来实现并行爬取。
const cluster = require('cluster');
const numCPUs = require('os').cpus().length; // cpu 核心数
if (cluster.isMaster) {
for (let i = 0; i < numCPUs; i++) {
cluster.fork();
}
} else {
// 爬虫逻辑
}
内容不多,但是非常实用,至少我自己在日常开发爬虫的过程中经常使用,希望对各位有帮助吧。