实时抓取网页数据(优采云原创的自动提取正文算法能适应网页的主体正文)

优采云 发布时间: 2022-01-18 23:12

  实时抓取网页数据(优采云原创的自动提取正文算法能适应网页的主体正文)

  监控到最新网页时,软件会列在列表框最上方,并有提示音。

  然后点击列表中的一个标题,网页的文字会自动显示在“快速查看窗口”中。

  优采云原创的自动文本提取算法,可以适应大部分网页,自动提取网页主体文本部分单独阅读。

  当然,你可能会遇到提取错误,比如一些没有大段文字的网页,比如视频播放页面等,此时可以点击“打开原创网页”链接查看原创网页。

  指示

  1、一般网速如4M,同一程序监控的关键词个数不建议超过20个。即使你的网速很快,也不建议设置太多< @关键词同时监控,也可以尝试打开多个程序进行监控(将程序的多份拷贝到不同的文件夹,独立添加监控配置并运行)。

  2、刷新列表的显示数量,软件会动态保持在1500以内,超出的会自动剔除

  3、刷新列表的URL已经保存在【软件目录-刷新列表】目录下,每个关键词HTML和TXT格式文件收录两份。如果长时间运行后文件过大,可以自行删除或移动文件到新位置(先关闭监控程序)。

  4、在刷新列表中右键单击标题,直接在浏览器中打开原创网页,而不是提取文本。

  5、[关键词出现在标题中]只是在搜索引擎爬取中添加了[intitle:]参数。即使在搜索论坛或微信时使用该参数,返回的标题也可能不收录关键词(通常网页正文收录关键词),则可以勾选[Full Appearance]强制< @关键词 出现在标题中。

  6、刷新列表的时间条,[ ]方括号为当地时间,未括起来的为网页时间。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线