最新版本:网络矿工采集器VSP可视化配置图文教程Word文档下载推荐.docx

优采云 发布时间: 2022-09-29 03:16

  最新版本:网络矿工采集器VSP可视化配置图文教程Word文档下载推荐.docx

  网络矿工采集器VSP可视化配置图文教程Word文档下载推荐.docx

  

  《网络矿工采集器VSP可视化配置图文教程Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《网络矿工采集器VSP可视化配置图文教程Word文档下载推荐.docx(6页珍藏版)》请在冰点文库上搜索。

  

  1、我们以一个采集导航的新闻信息为例,进行讲解。启动网络矿工,新建一个采集任务,输入采集任务的名称:“大河网新闻采集”,点击“增加采集网址”输入采集的入口网址,就是我们上面的网址选择“导航采集”,增加导航规则,增加导航规则就是可以通过这个列表页将文章逐一的打开并进行采集操作。导航规则我们采用可视化配置的方法进行操作,点击“增加”按钮,在打开的窗口中点击“配置导航规则”,选择可视化配置,如下:点击“可视化提取”打开可视化配置的页面,打开页面后,地址栏是我们输入的网址,点击“转到”即可打开此页面。我们是需要通过可视化的方法获取一个列表,所以,我们在捕获前需要选择“多条记录 请通过鼠标捕获第一条和最后一

  2、条记录”,点击“开始捕获”,在页面中选择第一条记录后,滚动页面,再选中最后一条记录,系统即可完成可视化规则生成,如下:我们可以看到xpath表达式中自动生成了一个数字参数,这个数字参数就代表了这个列表数据的所有xpath表达式,我们测试一下,看是否可以正确导航到我们需要的文章网址信息;可以看到导航出来500个网址,就是我们刚才那个列表页面中的所有文章网址了,这样导航规则就配置完成了,下面我们配置采集数据的规则。选择“采集数据”页,点击“增加”开始增加采集数据的规则,在打开的页面选择可视化配置,并点击“可视化提取”按钮,如下:打开可视化配置页面,网址系统会自动输入,根据刚才测试导航导航出来的网址

  3、选择第一个,系统会自动填写到地址栏,点击“转到”打开此页面,点击“开始捕获”进行可视化的配置,如下:获取到xpath地址后,我们可以点击“测试”按钮,看系统匹配的数据是否正确,如果正确,点击“确定退出”,即可将此采集规则回填到刚才的配置页面,然后我们逐一通过上述的方法将发布时间、来源及正文的采集规则配置出来,最终如下:可以看到规则类别都是“XPath”即为可视化的配置模式。点击“测试采集”,看下采集的效果,可以看到来源的采集多了“来源:”,实际这个对我们而言是无意义的,但对于可视化来讲“来源:”和真正的来源是属于一个节点,那么我们可以通过数据加工去掉这个多余的内容,在采集数据页,选择“来源”,在数据加工配置中选择“左起去掉字符”,然后输入3,即可删除这几个字符,运行采集任务,最终采集效果如下:可视化的配置大大简化了采集任务规则的配置,可以应对大部分的数据采集规则配置,建议新用户先掌握此配置技巧。

  文章采集调用 最新版:在HTML中运行Python?

  在HTML中运行Python?

  Pyscript是一个由anaconda开发的新框架,可以让你在HTML代码中远行Python

  这意味着你可以使用

  标签在浏览器中执行python代码。而且用起来也非常简单

  让我们来试试。

  使用以下代码创建一个简单的HTML文档。

  

Title: PyScript

  现在在头部标签中添加以下几行

  最后的代码应该是这样的

  

<p>

   你能在html代码中运行python吗?

print("不知道哇")

  正如上面的代码所展示的那样,python代码被封装在

  标签里。

  运行HTML文件将得到这样的输出。

  在使用PyScript时,你有可能希望将Python代码中的变量发送到HTML中。这可以通过pyscript>元素内的pyscript模块的写入方法来实现。你被允许传递字符串,这些字符串利用id属性显示为普通文本。

  写入方法接受两个变量:id值和将被提供的变量。

  例2:

  让我们使用pyscript中的datetime模块来在HTML中打印日期。在下面的例子中,我们使用标签方法。

  

<p>

  今天是

import datetime as dt

pyscript.write(&#39;today&#39;, dt.date.today().strftime(&#39;%A %B %d, %Y&#39;))

</p>

  输出:

  你也可以在HTML中运行python IDE,在浏览器中运行、修改和删除python代码。

  下面是这方面的代码。

  标签在网页上添加了一个代码编辑器组件

  可以在pyscript中使用的外部库和Python包。

  该项目仍处于起步阶段,但确实允许我们使用一些库,下面是其中的几个

  在Pyodide文档中,有一个支持的第三方软件包的全面列表

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线