1、打开软件之后,新建分组或者在已有分组上右击新建任务,选择任务右击编辑任务,然后制作采集网址规则、制作采集内容规则,以及设置文件保存位置,最后选择采网址、采内容选择框,开始任务就可以采集到数据了。注意编辑任务右上方的网页编码方式。



5、关键步骤——制作采集内容规则。添加需要采集的标签,当然标签名可以任意命名,但是后面通过数据库入库的时候,必须按阖嚏逵藩照这里的标签名来组合变量。提取数据方式有多种,前后截取需要你掌握Html知识,正则提取需要有一定的正则表达式基础,前两种方式比较常用且效果也非常好。后面的正文提取方式有很大局限性,对采集网站有限制。对话框下侧的数据处理方式有很多,类似于数据二次处理,即首先通过你制作的规则采集到数据,然后再根据你的数据处理方式进一步处理数据,常用的有对内容进行Html标签过滤、内容替换等等。

6、内容页包含分页情况处理,需要在采集内容规则这一步骤,在左下方制定分页获取规则,同样的是选择分页网址提取区域制作。另外需要在标签编辑中选择“该标签在分页中匹配”。如果采集内容想要在自己网站实现内容分页功能,需要在采集内容规则这一步,在左下方编辑标签循环处理,设置分页内容连接代码内容。
