汇总:快速收集行业资料

优采云 发布时间: 2022-11-17 01:20

  汇总:快速收集行业资料

  2012年,微信公众号诞生。同年,张一鸣创立了字节跳动。三年后,今日头条获得年度最具影响力应用。

  随后几年到现在,大家也逐渐熟悉了“自媒体”这个词,获取信息的方式也越来越依赖于公众号等各种自媒体平台。

  基本上每天在公交地铁上,总能看到很多小伙伴在刷公众号,在今日头条文章上看“暴露xxxx”、“xxxx惊呆了”等等。

  使用搜索引擎,页面会为您推荐热点信息。当然,也有人说“以下信息是根据你的兴趣推荐的”。

  就像你说你喜欢吃土豆,然后你扔土豆丝,土豆块,土豆饼,土豆泥,好坏都行。

  科技的进步固然是好事,但实用信息的获取绝不能单靠别人推荐的内容。

  所以,兄弟姐妹们想要快速了解某个行业,需要专业的网站来获取专业的信息。

  我一直认为 Google 搜索是世界上最好的搜索工具。借助一些关键词搜索技巧,您总能更快地找到有用的信息。

  可惜没有得到社会主义的庇佑。

  所以这里我也整理了一些网站获取行业专业信息,尽量不要在没完没了的网页上搜索。

  

  之前写过一篇关于搜索的文章《》,大家可以通过它来学习搜索。

  1.数据和信息

  199it,中国互联网信息中心,拥有研究报告、区块链、大数据、战略性新兴产业等行业报告门类齐全。

  此外,易观智库(Analysys Think Tank)也有比较完整的互联网报道。

  艾瑞咨询

  虎嗅网

  钛媒体

  以上是比较好的网络媒体网站,太多了反而是负担。

  2. 银行业

  中国证券网

  财新网

  

  *敏*感*词*新闻

  中国金融网

  汇博投研资讯

  3.数据库类

  国家科研网数据库和统计数据库包括宏观数据、金融、教育、行业数据等,但宏观数据年度跨度不大。

  Information Bank,一个非常全面的数据库,几乎收录了所有最新的年鉴。适合查找数据源。

  年鉴,包括历年统计年鉴、人口普查数据、专项数据等,适合浏览年鉴。

  希望对大家有用。各行各业的信息太多了,这里不可能一一列举。

  当然,如果你搜索得好,说不定还能看到外面的花花草草。

  另外,据说大家给“许老师福利班”定了星,非常可爱。

  汇总:数据采集直接入库的浏览器

  你想如何将网站内容采集直接保存到数据库中进行查询管理。只要使用Wood Browser等通用数据采集软件,比如新闻内容抓取、产品库存价格抓取、订单明细抓取等。

  限于篇幅,本文仅介绍采集打开网页后的步骤。

  1、首先看要抓取的网页,如下图,需要采集新闻标题、来源和正文内容,将内容直接保存到数据库中。如下图,打开自动化控制菜单,点击项目管理器。

  2. 在项目管理器中,新建了一个默认项目。在此基础上点击鼠标右键,弹出新步骤的菜单。根据本项目的需求,需要创建一个抓取内容的步骤和一个执行Sql语句的步骤。

  3、首先创建抓取内容的步骤,点击添加按钮,在弹出的获取动态元素对话框中,点击自动获取按钮,进入使用浏览器时的抓取元素模式。

  

  4、当浏览器进入元素捕捉模式,在网页上移动鼠标右键时,会出现一个红框跟随显示当前选中的元素。将鼠标右键移动到新闻标题上,单击鼠标右键,在弹出的菜单中选择获取元素。这时候浏览器右侧元素的参数就确定了。默认使用通过元素属性获取的方式。这里由于H1元素没有属性,所以软件默认使用文件内容文本作为元素的唯一标识。

  5.通过元素属性获取title明显有问题。如果您打开另一个标题不同的新闻,您将无法找到标题元素。所以改用元素下标获取元素,如下图,意思是找到页面上的第二个H1元素。修改完成后,点击右侧的确定按钮,结束获取元素状态,返回项目管理器。

  6.获取title元素后,设置捕获元素的文本内容的Text值。

  7、以同样的方式添加抓取来源和正文内容。设置完成后,可以点击单步测试按钮,然后右键点击抓图元素,查看抓图内容,测试抓图效果。

  

  8、创建一个执行Sql的步骤,设置连接数据库类型为Sqlite,对照下图右侧的表结构,编写插入数据的Sql语句。其中,变量是通过右键添加的。

  9、新建一个定时控制步,每秒执行一次,执行20次后停止。由于篇幅原因,只在同一个页面测试采集20次,如果需要采集不同的新闻页面,想办法改页面就好了,比如批量添加url,点击news in网页更新后的命令、*敏*感*词*采集等方法。

  10、在项目管理器中,选择项目的根节点,点击开始按钮进行测试,执行完成后,可以查看到已经连接数据库的20条记录。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线