自动采集器怎么用(优采云采集器的自定义模块教程,你值得拥有) -云顶集团官方网站入口
云顶集团官方网站入口-yd222云顶线路检测中心 发布时间: 2021-09-01 12:00自动云顶集团官方网站入口-yd222云顶线路检测中心器怎么用(优采云云顶集团官方网站入口-yd222云顶线路检测中心的自定义模块教程,你值得拥有)
有了之前使用模板爬取数据的经验,相信你应该能更熟练的使用优采云采集器。可能有朋友好奇,能不能只爬取软件预设的模板获取数据?当然不是。 优采云采集器 还有一个自定义的采集 函数供用户采集 想要数据。与预设模块相比,定制更灵活,虽然相比预设模板更复杂,但爬取的数据更适合你。本文小编为大家带来优采云采集器的自定义模块教程。
第一步
首先,和往常一样,启动并登录你的优采云采集器,进入主界面,点击【新建】下的【新建任务组】,新建一个组。
点击确定创建一个新组
第二步
创建组后,点击【新建】下的自定义任务,会进入这样的界面。
我们可以找到我们要抓取的网页的链接。这里小编去京东搜索手机,搜索结果出来后,我们可以复制链接。
将我们复制的链接粘贴到url栏中,将任务组改为之前创建的组,然后点击【保存设置】。
第三步
保存设置后会跳转到抓取界面,软件会自动开始识别要抓取的网页部分。根据个别机器的网速不同,对应的等待时间也不同。
识别完成后,可以看到有很多数据,其中有很多无用的数据需要剔除。
将光标移动到表格字段,会出现两个图标,笔图标是更改字段名称,垃圾桶是删除该字段。
我们可以随意删除和更改字段名称。这里,编辑器只保留上图中的字段。
第四步
设置完字段后,我们将注意力转向了上图中的小方框。第一个是不可选的,我们直接忽略它。
采集前滚动页面加载更多数据:因为现在很多网站使用动态页面,加载时有些内容不会显示,只有我们下拉才会逐渐显示,这个功能就是防止这种情况发生。
翻页和采集多页数据:设置为抓取多页,不勾选仅当前页。
点击列表中的xxx和采集下一级页面:该功能允许我们抓取子页面的内容。
这里不深入爬取,只勾选前两项,然后点击【生成采集设置】。
点击生成后,它会让你开始保存或查看。点击此处保存并启动采集。
第五步
到达这个界面后,我们可以看到一个详细的过程。该页面爬取的内容在内循环列表中。
我们点击外循环的设置按钮。
展开退出循环设置,查看循环执行次数,这里我们只抓取了3个页面。
开始采集
采集done,点击导出。
另外,如果您抓取的页面有重复数据,软件也会直接提示您,根据您的情况选择保留或删除。
导出方式
导出文件的保存位置
保存完成
查看数据
以上是小编带来的优采云采集器自定义模块教程。熟练使用后,相信各位小伙伴可以采集有更多的数据,使用优采云采集器采集data之后,就可以根据采集的数据分析完成各种任务。希望这篇文章能帮到你。
优采云采集器是一个根据用户提供的关键词,云端自动采集相关文章并发布到用户网站的网站采集器。它能够自动识别各种网页上的标题、正文等信息,不需要用户编写任何采集规则就可以实现全网采集。采集到内容后,会自动计算内容与所设定的关键词的相关度,只把相关的文章推送给用户。支持标题前缀、关键词自动加粗、插入固定链接、自动提取tag标签、自动内链、自动配图、自动伪原创、内容过滤和替换、电话号码和网址清理、定时采集、百度主动提交等一系列seo功能。用户只需设置好关键词和相关需求,就能实现全托管、零维护的网站内容更新。不限网站数量,不管是单个网站还是大批量站群,都可以非常方便的进行管理。