实时抓取网页数据(优采云原创的自动提取正文算法能适应网页的主体正文)
优采云 发布时间: 2021-10-23 20:11实时抓取网页数据(优采云原创的自动提取正文算法能适应网页的主体正文)
当*敏*感*词*到最新网页时,该软件会列在列表框的最上方,并有提示音。
然后你点击列表中的一个标题,网页的文字就会自动显示在“快速阅读窗口”中。
优采云原创的自动文本提取算法,该算法可以适应大部分网页,自动提取网页的主体部分,单独阅读。
当然,你也可能会遇到提取错误,比如一些没有大正文的网页,比如视频播放页面等,这时候可以点击“打开原创网页”链接查看原创网页页。
指示
1、 一般网速为4M,同一程序监控的关键词数量不建议超过20个。即使你的网速很快,也不建议设置太多多个关键词同时监控,也可以尝试打开多个程序进行监控(将多个程序拷贝到不同文件夹,独立添加监控配置操作)。
2、 刷新列表显示数量,软件会动态保持在1500以内,超出的会自动去除
3、刷新列表的URL已经保存在【软件目录-刷新列表】目录下,关键词HTML和TXT格式文件各有两份。如果长时间运行后文件过大,可以自行删除或移动文件到新位置(先关闭监控程序)。
4、右键刷新列表中的标题,直接在浏览器中打开原网页,无需提取文字。
5、【关键词出现在标题中】只是在搜索引擎爬取中添加了[intitle:]参数,即使在搜索论坛或微信时使用该参数,返回的标题也可能不收录关键词(通常网页正文收录关键词),然后可以勾选[Fully Appear]强制关键词出现在标题中。
6、 刷新列表时间栏,[]方括号括起来是当地时间,网页时间不括起来。