node.js爬虫

一、node.js爬虫

爬虫: 表示通过服务器端抓取或者获取前端网页中的数据,以下是node.js爬虫的步骤

1.nodejs 爬取网页数据利用http模块中的get方法,http.get(‘爬取的网页url地址’,(req)=>{})
2.爬取的网页需要借助第三方的一个插件cheerio,该插件可以将网页中的数据拿出来,npm install cheerio

二、代码

const http = require('http');
const cheerio = require('cheerio');
const fs = require('fs');
const app = http.createServer((req, res) => {
    http.get('http://www.17989.com/xiaohua/', (newReq) => {
        let str = ''
        newReq.on('data', (chunk) => {
            str += chunk
        })
        newReq.on('end', () => {
            let $ = cheerio.load(str) 
            //1. 定义一个数组,将数据存放到数组中
            let arr = []; //[{title:'笑话标题',content:'笑话内容'},{title:'笑话标题',content:'笑话内容'}]
            $('.hd').each((i, v) => {  
                arr.push({
                    'title': $(v).text(),
                    "content": $(v).next().text()
                })
            });
            // 2.将该数据arr写入到一个json文件中,存放在static中的json文件夹中
            // fs.writeFileSync('./static/json/data.json', JSON.stringify(arr))
            fs.writeFile('./static/data/data.json', JSON.stringify(arr), (err) => {
                console.log(err);
            })
        })
    })
    res.end('ok')
})
app.listen(9999, () => {
    console.log('服务器已启动!!!');
})