推荐文章:如何使用优采云 采集新浪新闻文章
优采云 发布时间: 2022-11-23 13:21推荐文章:如何使用优采云
采集新浪新闻文章
本文介绍如何使用采集器采集新浪新闻文章。
采集内容包括:新闻标题、新闻正文
文章插图
工具/材料使用功能点: ? 清单和详细信息采集
?Ajax 点击加载?Xpath修改?自定义数据字段
方法/步骤一 步骤一:创建新浪新闻采集任务
1)进入主界面,选择“自定义采集
”
文章插图
22) 将要采集的网址复制粘贴到网址输入框中,点击“保存网址”
文章插图
3 步骤 2:创建列表循环
1)打开网页后,用鼠标选择第一个新闻列表的标题,系统会自动识别其他类似的链接,然后在右侧的提示框中选择“全选”
文章插图
4【如何使用优采云
采集新浪新闻文章】2)然后选择“采集以下链接文字”
" />
文章插图
5 然后选择单击链接。
文章插图
6 步骤 3:提取细节
1)进入列表详情页,鼠标选中文章内容的第一段,系统会自动识别其他类似链接,然后在右侧提示框中选择“全选”,
文章插图
7后,选择“采集
以下元素文本”
文章插图
82) 选择需要的数据后,可以打开右上角的流程按钮修改字段。
文章插图
93)选中提取数据的步骤,鼠标点击“自定义数据域”
文章插图
" />
10后,选择“自定义数据合并方式
文章插图
11 勾选第二个选项,相同字段合并到同一行
文章插图
12第 4 步:修改 XPath 和高级选项设置
1)选中整个“Cycle Step”,打开“Advanced Options”,可以看到优采云
生成的元素列表的Xpath默认是定位不到所有文章的,需要修改
文章插图
132) 在Firefox浏览器中打开要采集的网页,观察源代码。观察网页源码,将这个Xpath修改为:“//p”,将修改后的Xpath复制粘贴到优采云
所示位置,点击“确定”。
文章插图
14 由于网站涉及Ajax
文章插图
15第五步:新浪新闻数据采集与导出
1)点击左上角“保存”,然后点击“开始采集”,选择“开始本地采集”
技术文章:云开发与CMS开发个人博客
前言
本文使用云开发+CMS+静态托管搭建一个简单的博客。
云开发简介
云开发为我们提供了一体化的后端云服务,让我们可以专注于页面逻辑,而无需关心服务器的搭建和运维。
实施思路
通过CMS实现文章的增删改查,通过云函数获取文章,渲染到已上传静态托管的页面。
环境要求 Node.js 安装
云开发环境
等待环境初始化完成
云库/cli
CloudBase CLI是一款开源的命令行界面交互工具,用于帮助用户快速方便地部署项目和管理云开发资源。
npm i -g @cloudbase/cli 或 yarn global add @cloudbase/cli
初始化云开发项目
先执行tcb login进行登录授权。一切准备就绪后,我们就可以构建云开发项目,使用tcb init初始化项目,选择vue模板
tcb init
√ 选择关联环境 · xxxxxx - [xxxxxx-xxxx:按量计费]
√ 选择云开发模板 · Vue 应用
√ 请输入项目名称 · vue-cloudbase
√ 创建项目 vue-cloudbase 成功!
进入vue-cloudbase,执行npm i 安装项目所需的依赖。
了解云功能
在创建的云开发项目目录下,云函数位于cloudfunctions。每个模板都会为我们提供一个云函数。
const cloud = require("@cloudbase/node-sdk");
exports.main = async (event, context) => {
const app = cloud.init({
env: cloud.SYMBOL_CURRENT_ENV,
});
// todo
// your code here
return {
event,
};
};
云函数的传入参数有两个对象,事件对象和上下文对象。
上传云功能
" />
这里推荐一个Visual Studio Code:Tencent CloudBase Toolkit
Tencent CloudBase Toolkit是腾讯云-云开发发布的一款VS Code(Visual Studio Code)插件。本插件可以让您更好的在本地开发云开发项目和代码调试,轻松将项目部署到云端。
在cloud function中,我们看到引入了@cloudbase/node-sdk,所以我们需要在其目录下执行npm i安装依赖。
安装完成后,我们点击云函数目录上传。
我们只需要在第一次创建的时候部署上传即可。如果以后修改云函数,只需要更新文件即可~
预习
当我们执行npm run dev时,我们可以去对应的链接进行预览。
上传到静态网站托管
上传后,我们可以在静态网站托管中查看默认域名。并预览上传的Vue云开发项目。
内容管理系统安装
云开发为我们提供了CMS内容管理系统的扩展能力,我们进入扩展管理
在更多扩展功能中找到并安装 CMS 内容管理系统。
安装完成后,我们可以通过云开发的静态托管访问默认的域名/部署路径。
例如:(这里的默认域名也可以是自己绑定的域名~)
关于CMS详细教程CMS
CMS新文章管理
我们的博客离不开文章的发表、删除、修改等。
我们选择 Content Settings = "New
并配置内容
注意:填写数据库集合名称时,如果当前云开发环境中不存在该集合,则会自动创建。可以根据需要修改字段内容。
创建完成后,左侧会出现内容管理的操作项。我们可以在其中添加文章。
并且新文章会自动添加到相应的数据库中。
这时候我们只需要在云功能中搜索文章即可。
创建一个新的云函数
我们在cloudfunctions下本地新建一个cloud function
选择节点模板
并给出云函数名称
并将以下代码粘贴到
const cloud = require("@cloudbase/node-sdk");
<p>
" />
exports.main = async (event, context) => {
const app = cloud.init({
env: cloud.SYMBOL_CURRENT_ENV,
});
const db = app.cloudbase();
return db.collection('article').get();
};
</p>
不要忘记,因为引入了@cloudbase/node-sdk,需要在当前云函数中执行npm i 来安装依赖。
完成后,部署云函数(上传所有文件)
调用云函数
我们的云函数创建并部署后,我们可以立即调用它
this.$cloudbase.callFunction({
name: "getArticle",
data: {
xx: "xxx",
},
}).then((data)=>{
this.callFunctionResult = data;
}).catch((err) => {
this.callFunctionResult = err;
})
参数 说明 name 云函数名称数据需要传入云函数的参数
可以看到我们获取到了CMS中添加的内容。
数据处理
我写了一个例子使用云函数简单处理数据并渲染到页面上,请戳github
跳转到详情页时使用Vue-Router动态路由,将CMS自动生成的id作为文章id传递给详情页,点击要打开的文章。
发布
当我们完成所有工作后,重新打包 npm run build 并将新的 dist 上传到静态网站托管。
以后我们只需要在CMS中进行添加文章、修改文章、删除文章等操作,我们的博客就可以更新了。