实时抓取网页数据(优采云原创的自动提取正文算法能适应网页的主体正文)
优采云 发布时间: 2022-01-18 23:12实时抓取网页数据(优采云原创的自动提取正文算法能适应网页的主体正文)
监控到最新网页时,软件会列在列表框最上方,并有提示音。
然后点击列表中的一个标题,网页的文字会自动显示在“快速查看窗口”中。
优采云原创的自动文本提取算法,可以适应大部分网页,自动提取网页主体文本部分单独阅读。
当然,你可能会遇到提取错误,比如一些没有大段文字的网页,比如视频播放页面等,此时可以点击“打开原创网页”链接查看原创网页。
指示
1、一般网速如4M,同一程序监控的关键词个数不建议超过20个。即使你的网速很快,也不建议设置太多< @关键词同时监控,也可以尝试打开多个程序进行监控(将程序的多份拷贝到不同的文件夹,独立添加监控配置并运行)。
2、刷新列表的显示数量,软件会动态保持在1500以内,超出的会自动剔除
3、刷新列表的URL已经保存在【软件目录-刷新列表】目录下,每个关键词HTML和TXT格式文件收录两份。如果长时间运行后文件过大,可以自行删除或移动文件到新位置(先关闭监控程序)。
4、在刷新列表中右键单击标题,直接在浏览器中打开原创网页,而不是提取文本。
5、[关键词出现在标题中]只是在搜索引擎爬取中添加了[intitle:]参数。即使在搜索论坛或微信时使用该参数,返回的标题也可能不收录关键词(通常网页正文收录关键词),则可以勾选[Full Appearance]强制< @关键词 出现在标题中。
6、刷新列表的时间条,[ ]方括号为当地时间,未括起来的为网页时间。