汇总:自动采集网页里面链接数据(内容自动采集于互联网)

优采云 发布时间: 2022-11-04 01:44

  汇总:自动采集网页里面链接数据(内容自动采集于互联网)

  本篇文章将告诉你网页中的自动采集链接数据,以及互联网上自动采集内容对应的知识点。希望对你有帮助,别忘了采集本站。哦。

  本文内容列表:

  如何自动化网页上的采集数据

  优采云采集器的云采集可以

  配置采集任务后,可以关机,任务可以在云端执行,海量企业云,24*7不间断运行,再也不用担心IP阻塞,网络中断,即时 采集 大量数据。

  wps如何自动采集网站数据

  推荐使用微软Office的Excel表格获取网站上面的数据:

  

  使用微软office打开Excel表格,点击【数据】、【获取外部数据】、【来自网站】;

  输入URL后点击【Go】,数据出来后点击【Import】。

  excel 采集 网页数据怎么做

  Excel的功能还是比较齐全的。您可以通过 Excel 中的函数采集 网页数据。具体操作示例如下:

  所需工具:

  微软办公软件 Excel 2007

  计算机

  1、新建Excel,打开并进入表格,如图:

  

  2、然后选择“Data”选项卡,选择“From 网站”,结果如图:

  3、出现上图后,在“地址”中输入对应的网络地址,例如输入的地址如图:

  4、将地址栏复制到“New Web Query”中,然后选择“Go”如图:

  在此期间升级需要几秒钟,“Go”后的结果如下:

  5.然后选择“导入”,等待几秒,就会出现如图:

  单击确定。结果如图所示:

  6.此时,当前地址的页面已经采集结束,完成。

  关于互联网网页采集自动采集链接数据和内容的介绍到此结束。我想知道你是否找到了你需要的信息?如果您想了解更多相关信息,请记得采集并关注本站。

  最新版本:Pelican 入门:一个 Python 静态网站*敏*感*词*

  对于想要自托管简单网站或博客的 Python 用户来说,Pelican 是一个不错的选择。

  如果要创建自定义网站或博客,有很多选项。许多提供商可以托管您的网站并为您完成大部分工作。(WordPress是一个非常受欢迎的选择。但是使用托管,您会失去一些灵活性。作为一名软件开发人员,我更喜欢管理自己的服务器,并在网站运行方式上保持更多的自由。

  但是,管理 Web 服务器需要大量工作。安装它并获得一个简单的应用程序来提供内容非常容易。但是,维护安全补丁和更新非常耗时。如果您只想提供静态网页,那么拥有 Web 服务器和一系列应用程序可能会超过好处。手动创建 HTML 页面也不是一个好的选择。

  这就是静态网站发生器的用武之地。这些应用程序使用模板来创建所需的静态页面,并将其与关联的元数据交叉链接。(例如,所有显示的页面都具有公共标签或关键词。静态网站*敏*感*词*可以帮助您使用导航区域、页眉和页脚等元素创建具有通用外观的网站。

  我已经使用Pyhton多年了,所以,当我第一次开始寻找一些东西来生成静态HTML页面时,我想要一些用Python编写的东西。主要原因是我经常想了解应用程序如何工作的内部结构,而使用我已经理解的语言使这更容易。(如果这对你来说无关紧要,或者你不使用Python,还有其他一些很棒的静态网站*敏*感*词*使用Ruby,JavaScript和其他语言。

  我决定试一试鹈鹕。它是一个流行的静态网站*敏*感*词*,用Python编写。它支持reStructuredText(LCTT,一种文本数据的文件格式,主要用于Python社区中的技术文档),并且还支持Markdown,这是通过安装所需的软件包来完成的。所有任务都通过命令行界面 (CLI) 工具执行,这使得熟悉命令行的任何人都可以轻松完成。其简单的快速入门 CLI 工具使创建网站变得非常容易。

  在本文中,我将向您展示如何安装 Pelican 4、添加文章以及更改默认主题。(注意:我正在MacOS上开发,结果与其他Unix/Linux实验相同,但我没有Windows主机进行测试。)

  安装和配置

  第一步是创建一个安装鹈鹕的虚拟环境。

  $ mkdir test-site

  $ cd 测试站点

  $ python3 -m venv venv

  $ ./venv/bin/pip install --upgrade pip

  。

  成功安装 pip-18.1

  $ ./venv/bin/pip install pelican

  采集鹈鹕

  。成功安装 标记安全-1.1.0 闪光灯-1.4

  文档-0.14 饲料*敏*感*词*-1.9 金贾2-2.10 鹈鹕-4.0.1 侏儒-2.3.1 蟒蛇-日期util-2.7.5 Pytz-2018.7 六-1.12.0 统一代码-1.0.23

  Pelican 的快速入门 CLI 工具将创建一个基本布局和一些文件,以帮助你入门并运行 Pelican-quickstart 命令。为简单起见,我输入了网站标题和作者姓名,并选择“N”作为 URL 前缀和文章分页。(对于其他选项,我使用了默认值。稍后在配置文件中更改这些设置很容易。

  $ ./venv/bin/Pelicanquickstart

  欢迎来到鹈鹕快速入门 v4.0.1。

  此脚本将帮助您创建一个新的基于鹈鹕的网站。

  请回答以下问题,以便此脚本可以生成鹈鹕所需的文件。

  > 您想在哪里创建新网站?[.]

  > 这个网站的标题是什么?我的测试博客

  > 谁将是本网站的作者?克雷格

  > 本网站的默认语言是什么?[英文]

  > 是否要指定 URL 前缀?例如,(Y/n) n

  > 是否要启用文章分页?(是/否) n

  > 您的时区是什么?[欧洲/巴黎]

  > 是否要生成 tasks.py/Makefile 以自动生成和发布?(是/否)

  > 您想使用 FTP 上传您的网站吗?(是/否)

  > 您想使用 SSH 上传您的网站吗?(是/否)

  > 您想使用 Dropbox 上传您的网站吗?(是/否)

  

  > 您想使用 S3 上传您的网站吗?(是/否)

  > 您想使用Rackspace Cloud Files上传您的网站吗?(是/否)

  > 您想使用 GitHub 页面上传您的网站吗?(是/否)

  做。您的新项目可在 /Users/craig/tmp/pelican/test-site 获得

  您需要启动的所有文件都已准备就绪。

  快速入门默认为欧洲/巴黎时区,因此请先更改它,然后再继续。在您喜欢的文本编辑器中打开 pelicanconf.py 文件并查找 TIMEZONE 变量。

  时区 = '欧洲/巴黎'

  将其更改为 UTC。

  时区 = 'UTC'

  要更新公共设置,请在 pelicanconf.py 中查找 SOCIAL 变量。

  社交 = ((“您可以在配置文件中添加链接”, “#”),

  (“另一个社交链接”,“#”),)

  我将添加一个指向我的Twitter帐户的链接。

  社交 = (('Twitter (#craigs55)', ''),)

  注意末尾的逗号,这很重要。这个逗号将帮助 Python 识别变量实际上是一个集合。确保不要删除逗号。

  现在,你已网站基础知识。 快速入门创建一个收录许多目标的生成文件。传递开发服务器 make 命令将在计算机上启动开发服务器,以便您可以预览所有内容。假定 Makefile 中使用的 CLI 命令位于 PATH 搜索路径中,因此您需要先激活虚拟环境。

  $ source ./venv/bin/activate

  $ make devserver鹈鹕

  -lr /用户/craig/tmp/鹈鹕/测试站点/内容 o/Users/craig/tmp/pelican/test-site/

  output -s /Users/craig/tmp/pelican/test-site/pelicanconf.py

  -> 修改:主题,设置。 正在再生...

  警告:在活动读者的内容中找不到有效文件:

  |基本读取器(静态)

  |HTMLReader (htm, html)

  |RstReader (rst)

  完成:在 0.18 秒内处理了 0 篇文章、0 篇草稿、0 页、0 页隐藏页和 0 页草稿页。

  在您喜欢的浏览器中打开 :8000 以查看您的简单测试博客。

  你可以在右边看到Twitter链接,在左边看到一些鹈鹕、Python和Jinja的链接。(Jinja是鹈鹕可以使用的很棒的模板语言。您可以在 Jinja 的文档中了解更多信息。)

  添加内容

  现在您有另一个基本网站,请尝试添加一些内容。首先,将一个名为 welcome.rst 的文件添加到网站的内容目录中。在您喜欢的文本编辑器中,使用以下文本创建一个文件:

  $ pwd

  /Users/craig/tmp/pelican/test-site

  $ cat content/welcome.rst

  欢迎来到我的博客!##

  ##

  

  :d:20181216 08:30

  :标签: 欢迎光临

  :类别: 简介

  :蛞蝓:欢迎

  :作者: 克雷格:

  摘要:欢迎文档

  欢迎来到我的博客。

  这是一个简短的页面,只是为了展示如何放置静态页面。

  Pelican 自动解析元数据行,包括日期、标签等。

  写入文件后,开发服务器应输出以下内容:

  -> 修改:内容。 正在再生...

  完成:在 0.10 秒内处理 1 篇文章、0 篇草稿、0 页、0 页隐藏页和 0 页草稿页。

  在浏览器中刷新测试网站以查看更改。

  元数据(如日期和标签)会自动添加到页面中。此外,鹈鹕会自动检测介绍列,并将该部分添加到顶部导航中。

  更改主题

  使用像鹈鹕这样的流行开源软件的好处之一是,大量的用户进行更改并将其贡献给项目。许多人以主题的形式做出贡献。

  网站主题设置颜色、布局选项等。尝试新主题很容易,您可以在鹈鹕主题中预览其中的许多主题。

  首先,克隆 GitHub 存储库:

  $ cd ..

  $ git clone --recursive

  克隆成“鹈鹕”...

  我喜欢蓝色,所以试试蓝色。

  编辑 pelicanconf.py 并添加以下行:

  THEME = '/Users/craig/tmp/pelican/pelican-themes/blueidea/'

  开发服务器将重新生成输出。刷新浏览器中的网页以查看新主题。

  主题控制布局的各个方面。例如,在默认主题中,您可以在文章旁边看到带有元标记(简介)的列,但此列不会出现在 blueidea 主题中。

  其他注意事项

  这篇文章是对鹈鹕的快速介绍,所以我没有涉及一些重要的话题。

  首先,我对迁移到静态站点犹豫不决的原因之一是它无法对文章发表评论。幸运的是,有第三方服务将为您提供评论功能。我目前正在看的是Disqus。

  接下来,上述所有内容都是在我的本地计算机上完成的。如果我想让其他人查看我网站,我必须将预先生成的 HTML 文件上传到某个地方。如果你查看鹈鹕快速入门输出,你会看到使用 FTP、SSH、S3 甚至 GitHub 页面的选项,每个页面都有其优点和缺点。但是,如果我必须选择一个,那么我可能会选择发布到 GitHub 页面。

  鹈鹕还有许多其他我每天都在学习的功能。如果你想用简单和静态的内容自托管一个网站或博客,并且你想使用Python,那么Pelican是一个不错的选择。它有一个活跃的用户社区,可以修复错误、添加功能并创建新的有趣主题。试一试!

  通过:

  作者: 克雷格·塞贝尼克 标题: 鲁君9972 译者: MjSeven 校对: wxy

  本文由LCTT 原创编译,Linux中国荣誉发布会

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线