任意网页文章内容提取(采集)算法标签：采集程序开发 -云顶集团官方网站入口

云顶集团官方网站入口-yd222云顶线路检测中心发布时间: 2021-03-25 03:33

　　任意网页文章内容提取(云顶集团官方网站入口-yd222云顶线路检测中心)算法标签：采集程序开发

　　任意网页文章内容提取（采集）算法

　　标签：采集程序开发2014-04-09 19:10星期三

　　完成采集的任何人都知道，如果您想要采集一个网站，则必须基于网站的结构编写一个正则。这是最传统的方法。这种方法的优点是可以完成采集的精度。要非常详细，您可以采集具有网站的任何结构，但是这种方法也非常有限。一组规则只能用于一个网站，并且在网站的结构发生变化时需要重新分析。调整规则是非常被动的。

　　我一直在想，如果该程序可以像人一样被识别，则它可以是采集任何网站个文本内容。我在internet上找到了它，并且已经有很多类似的算法，主要有以下几种：

　　1、基于dom树

　　1)，使用开源软件包html tidy处理html并更正错误或不规则之处；

　　2)，基于更加标准化的html构建dom树，然后递归遍历该dom树，比较并标识各种非文本信息，包括广告，链接组和非重要节点信息；广告信息删除：需要建立定期更新的广告服务器列表；链接组删除：计算网页收录的链接数与非链接词数的比值；

　　3)。删除非文本信息后，dom树中的其余内容就是文本信息，直接来自其余树部分

　　从点中提取。

　　存在问题：dom树的建立需要高度格式正确的html，并且树的建立和遍历时空

　　复杂度很高，并且树遍历方法也随html标签而变化。

　　2、基于页面细分查找正文块

　　1)。正确分割网页后，将文本提取简化为对文本块的判断；

　　2)，分段是在html标签和一些视觉信息（例如文本颜色，字体大小，文本信息等）中使用分隔符。

　　存在问题：网站不同的html样式非常不同，没有统一的分段方法，并且难以保证*敏*感*词*性。

　　3、基于标签窗口

　　1)，先删除文章标题；

2)，这两个标签以及它们中收录的文本一起称为标签窗口（例如，文本中的文本是标签窗口中的文本），取出标签窗口中的所有文本；

优采云采集器是一个根据用户提供的关键词，云端自动采集相关文章并发布到用户网站的网站采集器。它能够自动识别各种网页上的标题、正文等信息，不需要用户编写任何采集规则就可以实现全网采集。采集到内容后，会自动计算内容与所设定的关键词的相关度，只把相关的文章推送给用户。支持标题前缀、关键词自动加粗、插入固定链接、自动提取tag标签、自动内链、自动配图、自动伪原创、内容过滤和替换、电话号码和网址清理、定时采集、百度主动提交等一系列seo功能。用户只需设置好关键词和相关需求，就能实现全托管、零维护的网站内容更新。不限网站数量，不管是单个网站还是大批量站群，都可以非常方便的进行管理。

2021-03-25

0 个评论

要回复文章请先登录或注册

云顶集团官方网站入口-yd222云顶线路检测中心

任意网页文章内容提取(采集)算法标签：采集程序开发 -云顶集团官方网站入口

0 个评论

发起人

采集器相关

云顶集团官方网站入口-yd222云顶线路检测中心

任意网页文章内容提取(采集)算法标签：采集程序开发 -云顶集团官方网站入口

0 个评论

发起人

采集器相关

相关问题