实时抓取网页数据(优采云原创的自动提取正文算法能适应网页的主体正文)

优采云 发布时间: 2021-10-23 20:11

  实时抓取网页数据(优采云原创的自动提取正文算法能适应网页的主体正文)

  当*敏*感*词*到最新网页时,该软件会列在列表框的最上方,并有提示音。

  然后你点击列表中的一个标题,网页的文字就会自动显示在“快速阅读窗口”中。

  优采云原创的自动文本提取算法,该算法可以适应大部分网页,自动提取网页的主体部分,单独阅读。

  当然,你也可能会遇到提取错误,比如一些没有大正文的网页,比如视频播放页面等,这时候可以点击“打开原创网页”链接查看原创网页页。

  指示

  1、 一般网速为4M,同一程序监控的关键词数量不建议超过20个。即使你的网速很快,也不建议设置太多多个关键词同时监控,也可以尝试打开多个程序进行监控(将多个程序拷贝到不同文件夹,独立添加监控配置操作)。

  2、 刷新列表显示数量,软件会动态保持在1500以内,超出的会自动去除

  3、刷新列表的URL已经保存在【软件目录-刷新列表】目录下,关键词HTML和TXT格式文件各有两份。如果长时间运行后文件过大,可以自行删除或移动文件到新位置(先关闭监控程序)。

  4、右键刷新列表中的标题,直接在浏览器中打开原网页,无需提取文字。

  5、【关键词出现在标题中】只是在搜索引擎爬取中添加了[intitle:]参数,即使在搜索论坛或微信时使用该参数,返回的标题也可能不收录关键词(通常网页正文收录关键词),然后可以勾选[Fully Appear]强制关键词出现在标题中。

  6、 刷新列表时间栏,[]方括号括起来是当地时间,网页时间不括起来。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线