推荐文章:如何使用优采云 采集新浪新闻文章

优采云 发布时间: 2022-11-23 13:21

  推荐文章:如何使用优采云

采集新浪新闻文章

  本文介绍如何使用采集器采集新浪新闻文章。

  采集内容包括:新闻标题、新闻正文

  文章插图

  工具/材料使用功能点: ? 清单和详细信息采集

?Ajax 点击加载?Xpath修改?自定义数据字段

  方法/步骤一 步骤一:创建新浪新闻采集任务

  1)进入主界面,选择“自定义采集

  文章插图

  22) 将要采集的网址复制粘贴到网址输入框中,点击“保存网址”

  文章插图

  3 步骤 2:创建列表循环

  1)打开网页后,用鼠标选择第一个新闻列表的标题,系统会自动识别其他类似的链接,然后在右侧的提示框中选择“全选”

  文章插图

  4【如何使用优采云

采集新浪新闻文章】2)然后选择“采集以下链接文字”

  

" />

  文章插图

  5 然后选择单击链接。

  文章插图

  6 步骤 3:提取细节

  1)进入列表详情页,鼠标选中文章内容的第一段,系统会自动识别其他类似链接,然后在右侧提示框中选择“全选”,

  文章插图

  7后,选择“采集

以下元素文本”

  文章插图

  82) 选择需要的数据后,可以打开右上角的流程按钮修改字段。

  文章插图

  93)选中提取数据的步骤,鼠标点击“自定义数据域”

  文章插图

  

" />

  10后,选择“自定义数据合并方式

  文章插图

  11 勾选第二个选项,相同字段合并到同一行

  文章插图

  12第 4 步:修改 XPath 和高级选项设置

  1)选中整个“Cycle Step”,打开“Advanced Options”,可以看到优采云

生成的元素列表的Xpath默认是定位不到所有文章的,需要修改

  文章插图

  132) 在Firefox浏览器中打开要采集的网页,观察源代码。观察网页源码,将这个Xpath修改为:“//p”,将修改后的Xpath复制粘贴到优采云

所示位置,点击“确定”。

  文章插图

  14 由于网站涉及Ajax

  文章插图

  15第五步:新浪新闻数据采集与导出

  1)点击左上角“保存”,然后点击“开始采集”,选择“开始本地采集”

  技术文章:云开发与CMS开发个人博客

  前言

  本文使用云开发+CMS+静态托管搭建一个简单的博客。

  云开发简介

  云开发为我们提供了一体化的后端云服务,让我们可以专注于页面逻辑,而无需关心服务器的搭建和运维。

  实施思路

  通过CMS实现文章的增删改查,通过云函数获取文章,渲染到已上传静态托管的页面。

  环境要求 Node.js 安装

  云开发环境

  等待环境初始化完成

  云库/cli

  CloudBase CLI是一款开源的命令行界面交互工具,用于帮助用户快速方便地部署项目和管理云开发资源。

  npm i -g @cloudbase/cli 或 yarn global add @cloudbase/cli

  初始化云开发项目

  先执行tcb login进行登录授权。一切准备就绪后,我们就可以构建云开发项目,使用tcb init初始化项目,选择vue模板

  tcb init

√ 选择关联环境 · xxxxxx - [xxxxxx-xxxx:按量计费]

√ 选择云开发模板 · Vue 应用

√ 请输入项目名称 · vue-cloudbase

√ 创建项目 vue-cloudbase 成功!

  进入vue-cloudbase,执行npm i 安装项目所需的依赖。

  了解云功能

  在创建的云开发项目目录下,云函数位于cloudfunctions。每个模板都会为我们提供一个云函数。

  const cloud = require("@cloudbase/node-sdk");

exports.main = async (event, context) => {

const app = cloud.init({

env: cloud.SYMBOL_CURRENT_ENV,

});

// todo

// your code here

return {

event,

};

};

  云函数的传入参数有两个对象,事件对象和上下文对象。

  上传云功能

  

" />

  这里推荐一个Visual Studio Code:Tencent CloudBase Toolkit

  Tencent CloudBase Toolkit是腾讯云-云开发发布的一款VS Code(Visual Studio Code)插件。本插件可以让您更好的在本地开发云开发项目和代码调试,轻松将项目部署到云端。

  在cloud function中,我们看到引入了@cloudbase/node-sdk,所以我们需要在其目录下执行npm i安装依赖。

  安装完成后,我们点击云函数目录上传。

  我们只需要在第一次创建的时候部署上传即可。如果以后修改云函数,只需要更新文件即可~

  预习

  当我们执行npm run dev时,我们可以去对应的链接进行预览。

  上传到静态网站托管

  上传后,我们可以在静态网站托管中查看默认域名。并预览上传的Vue云开发项目。

  内容管理系统安装

  云开发为我们提供了CMS内容管理系统的扩展能力,我们进入扩展管理

  在更多扩展功能中找到并安装 CMS 内容管理系统。

  安装完成后,我们可以通过云开发的静态托管访问默认的域名/部署路径。

  例如:(这里的默认域名也可以是自己绑定的域名~)

  关于CMS详细教程CMS

  CMS新文章管理

  我们的博客离不开文章的发表、删除、修改等。

  我们选择 Content Settings = "New

  并配置内容

  注意:填写数据库集合名称时,如果当前云开发环境中不存在该集合,则会自动创建。可以根据需要修改字段内容。

  创建完成后,左侧会出现内容管理的操作项。我们可以在其中添加文章。

  并且新文章会自动添加到相应的数据库中。

  这时候我们只需要在云功能中搜索文章即可。

  创建一个新的云函数

  我们在cloudfunctions下本地新建一个cloud function

  选择节点模板

  并给出云函数名称

  并将以下代码粘贴到

  const cloud = require("@cloudbase/node-sdk");

<p>

" />

exports.main = async (event, context) => {

const app = cloud.init({

env: cloud.SYMBOL_CURRENT_ENV,

});

const db = app.cloudbase();

return db.collection(&#39;article&#39;).get();

};

</p>

  不要忘记,因为引入了@cloudbase/node-sdk,需要在当前云函数中执行npm i 来安装依赖。

  完成后,部署云函数(上传所有文件)

  调用云函数

  我们的云函数创建并部署后,我们可以立即调用它

  this.$cloudbase.callFunction({

name: "getArticle",

data: {

xx: "xxx",

},

}).then((data)=>{

this.callFunctionResult = data;

}).catch((err) => {

this.callFunctionResult = err;

})

  参数 说明 name 云函数名称数据需要传入云函数的参数

  可以看到我们获取到了CMS中添加的内容。

  数据处理

  我写了一个例子使用云函数简单处理数据并渲染到页面上,请戳github

  跳转到详情页时使用Vue-Router动态路由,将CMS自动生成的id作为文章id传递给详情页,点击要打开的文章。

  发布

  当我们完成所有工作后,重新打包 npm run build 并将新的 dist 上传到静态网站托管。

  以后我们只需要在CMS中进行添加文章、修改文章、删除文章等操作,我们的博客就可以更新了。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线