实时抓取网页数据(优采云原创的自动提取正文的使用提示介绍原创算法)

优采云 发布时间: 2022-04-20 20:20

  实时抓取网页数据(优采云原创的自动提取正文的使用提示介绍原创算法)

  监控较新的网页时,软件会列在列表框较早的位置,并有提示音。

  然后点击列表中的一个标题,网页的文字会自动显示在“快速查看窗口”中。

  优采云原创的自动文本提取算法,可以适应大部分网页,自动提取网页主体文本部分单独阅读。

  当然,你可能会遇到提取错误,比如一些没有大段文字的网页,比如视频播放页面等,此时可以点击“打开原创网页”链接查看原创网页。

  使用建议:

  1、一般网速如4M,同一程序监控的关键词个数不建议超过20个。即使你的网速很快,也不建议设置太多< @关键词同时监控,也可以尝试打开多个程序进行监控(将程序的多份拷贝到不同的文件夹,独立添加监控配置并运行)。

  2、刷新列表的显示数量,软件会动态保持在1500以内,超出的会自动剔除

  3、刷新列表的URL已经保存在【软件目录-刷新列表】目录下,每个关键词HTML和TXT格式文件收录两份。如果长时间运行后文件过大,可以自行删除或移动文件到新位置(先关闭监控程序)。

  4、在刷新列表中右键单击标题,直接在浏览器中打开原创网页,而不是提取文本。

  5、[关键词出现在标题中]只是将[intitle:]参数添加到搜索引擎爬取中。即使在搜索论坛或微信时使用此参数,返回的标题也可能不收录关键词(通常网页正文收录关键词),则可以勾选[有效外观]强制< @关键词 出现在标题中。

  6、刷新列表的时间条,[]方括号为当地时间,页面时间不括起来。

  优采云网络舆情监测系统v1.0.0.2 更新:

  添加(预览内容后)复制标题和复制内容按钮

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线