爬虫全教程:仔细 node.js 爬虫全过程!(一)

 时间:2024-10-13 10:35:04

网络爬虫,以前都语言 Python 做爬虫比较多,现在是时候学习使用 nodejs 爬虫了~由于篇幅过长,本教程分为多节~

爬虫全教程:仔细 node.js 爬虫全过程!(一)

一、爬虫过程分析

1、① 结构分析分析清楚 需要爬的页面结构,要爬哪些页面,页面的结构是怎样的,需不需要登录;有没有 ajax 接口,返回什么样的数据等。② 数据抓取如今的网页的数据,大体分为同步页面和 ajax 接口。同步页面数据的抓取就需要我们先分析网页的结构,node 有一个 cheerio 的工具,可以将获取的页面内容转换成 jquery 对象,然后就可以用 jquery 强大的 dom API 来获取节点相关数据, 其实大家看源码,这些 API 本质也就是正则匹配。ajax 接口数据一般都是 json 格式的,处理起来还是比较简单的。③数据存储抓取的数据后,会做简单的筛选,然后将需要的数据先保存起来,以便后续的分析处理。当然我们可以用 MySQL 和 Mongodb 等数据库存储数据。为了方便,没有问题的话也可以直接采用文件存储。④数据分析 因为我们最终是要展示数据的,所以我们要将原始的数据按照一定维度去处理分析,然后返回给客户端。 这个过程可以在存储的时候去处理,也可以在展示的时候,前端发送请求,后台取出存储的数据再处理。⑤结果展示这个是前端工程师的工作啦。

爬虫全教程:仔细 node.js 爬虫全过程!(一)

2、 是否安装成功在命令行运行查看是否安装成功```BASH$ node -v# v 10.15.0 这样是安装成功```node:command not found 安装失败了

爬虫全教程:仔细 node.js 爬虫全过程!(一)
  • 华为HarmonyOS怎么设置双卡呼叫转移
  • 地板安装地暖最佳方法步骤
  • 绿洲中获取的零钱如何提现?
  • 晚上看手机对眼睛的危害
  • 支付宝积分怎么用来夺宝
  • 热门搜索
    中国旅游信息网 十月旅游 旅游景点地图 柬埔寨旅游景点 南沙群岛旅游 夏天去哪里旅游 广西防城港旅游 佳木斯旅游 上海旅游网 天柱山旅游