5分钟教你使用Node+Express爬取他人网站数据

作者：管理员 2018-12-27 18:47:54 分类：Node+Koa 阅读（8838） 2

经常听闻别人说爬数据，是不是觉得很牛逼的样子，其实前端通过node.js爬取数据也很简单，在此牺牲一下 CNode 社区（国内最专业的 Node.js 开源技术社区），教大家怎么去爬它了。

目标

当在浏览器中访问 http://localhost:3000/ 时，输出 CNode(https://cnodejs.org/ ) 社区首页的所有帖子标题和链接，以 json 的形式。

输出示例

1
2
3
4
5
6
7
8
9
10

[
{
"title": "【公告】发招聘帖的同学留意一下这里",
"href": "http://cnodejs.org/topic/541ed2d05e28155f24676a12"
},
{
"title": "发布一款 Sublime Text 下的 JavaScript 语法高亮插件",
"href": "http://cnodejs.org/topic/54207e2efffeb6de3d61f68f"
}
]

知识点

学习使用 superagent 抓取网页
学习使用 cheerio 分析网页

实现代码

安装 expresssuperagent 和 cheerio。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35

var express = require('express');
var cheerio = require('cheerio');
var superagent = require('superagent');

var app = express();

app.get('/', function (req, res, next) {
// 用 superagent 去抓取 https://cnodejs.org/ 的内容
superagent.get('https://cnodejs.org/')
.end(function (err, sres) {
// 常规的错误处理
if (err) {
return next(err);
}
// sres.text 里面存储着网页的 html 内容，将它传给 cheerio.load 之后
// 就可以得到一个实现了 jquery 接口的变量，我们习惯性地将它命名为 `$`
// 剩下就都是 jquery 的内容了
var $ = cheerio.load(sres.text);
var items = [];
$('#topic_list .topic_title').each(function (idx, element) {
var $element = $(element);
items.push({
title: $element.attr('title'),
href: $element.attr('href')
});
});

res.send(items);
});
});

app.listen(3000, function () {
console.log('app is listening at port 3000');
});

1	运行方式 node app.js + 回车

结果

本站所有文章、图片、资源等如无特殊说明或标注，均为来自互联网或者站长原创，版权归原作者所有；仅作为个人学习、研究以及欣赏！如若本站内容侵犯了原著者的合法权益，可联系我们进行处理，邮箱：343049466@qq.com

赞(8) 打赏

标签：

上一篇：http-server快速开启本地http服务器

下一篇：web前端开发世上最全经典干货视频-百度网盘分享

5分钟教你使用Node+Express爬取他人网站数据

目标

输出示例

知识点

实现代码

结果

相关推荐

共 2 条评论关于"5分钟教你使用Node+Express爬取他人网站数据"

点击取消