解决方案:【自研】东鸽用 Go 语言写了一个能够自动解析新闻网页的算法

优采云 发布时间: 2022-11-28 04:17

  解决方案:【自研】东鸽用 Go 语言写了一个能够自动解析新闻网页的算法

  “NightTeam”,当之无愧的明星

  公众号。

  输入网页文本(无需输入xpath),自动构建并输出标题、发布时间、正文、作者、来源等信息。

  为了流量,标题有点唬人。但是算法确实可以做到多源多站点,并且已经在生产环境中应用,效果不错。

  先体验

  打开体验地址(或点击下方阅读原文)->体验页面[1],体验页面比较简单,主要分为3个区域:体验说明、参数输入区、分析结果展示区。

  在开始体验之前,您可以阅读体验说明。

  ①打开新闻网页,如永福:林业科技特派员助力麻竹种植[2]。

  ② 然后在页面空白处右击,在弹出的选项卡中选择查看页面源代码

  然后我们在浏览器的新窗口中看到显示的网页原文

  ③全选文字,复制。找一个Base64编码的在线工具[3]

  ④ 将复制的网页原文粘贴到方框1中,然后点击加密按钮,方框2中会出现相应的Base64编码,点击复制按钮将内容复制到剪贴板

  ⑤回到我们的体验页面,将Base64内容粘贴到参数输入区的网页框中,在URL中填写本文对应的URL。

  ⑥ 点击开始分析按钮,稍等片刻,体验页面会弹出分析结果提示。然后可以滑动到下方的分析结果展示区查看分析结果。

  解析结果展示区主要分为三个部分:接口信息、解析耗时统计、解析结果。

  接口信息主要是后端接口返回的一些信息;

  分析耗时统计是每个环节的耗时记录,以毫秒为单位;

  该算法的结果将显示在解析结果中,如文章标题、文章来源、文章发布时间、文章作者、文章正文、文本所在HTML标签、文本所在HTML标签的Class属性, ETC。

  还有根据正文内容计算的文章分类、文章标签、文章摘要等。多实体命名+情感分析还在训练中,暂无体验页。

  

" />

  推荐大家找一些其他的新闻网页,用同样的方法复制粘贴到体验页去体验,看看算法如何。

  这个算法有什么用

  其实我们在工具应用方面已经看到了这种算法:早年360浏览器推出的阅读模式几乎就是这样一种算法。阅读模式可以屏蔽那些广告、侧边栏、底栏内容,让你专心阅读文档和小说。

  在研发层面,它也发挥着很大的作用。我们来看一些业务场景:

  ①假设一个舆情公司,采集新闻文章数据,提取内容,标注训练,最终形成舆情产品(比如白沙舆情,什么浪潮舆情)。

  ②再举个例子,假设某投标公司采集

投标信息,然后对内容进行格式化和提取,提取投标名称、投标金额、投标方信息、代理信息、投标要求等,形成一个投标产品(例如, 千匹马竞价)。

  无论是新闻网站还是招标信息网站,网站的数量都非常多,一般有几万个。按照一般的做法,招一批爬虫工程师+一批专门写xpath规则的工作人员(一般是吃苦耐劳的实习生),从这几万个站点中一个一个填上xpath,然后读爬虫采集解析时对应的xpath。

  说是几十个、一百个网站还好,但是要把这几万个网站的数据全部填满,就需要几个月的时间。而且有些网站会有页面规则的变化,导致数据无法解析,所以需要每天更新xpath。想想工作量……

  但是有了这样的算法,就没有必要把xpaths一个一个填进去了。

  你的团队/公司可以在短时间内采集

大量数据,你不高兴

  这样的算法强大吗?

  先不说强大不强大,看看目前哪里有这样的算法或者产品。

  1、之前提到过360浏览器(现在是其他厂商的浏览器)都有这样的产品。

  2、微软好像也有类似的能力,也开放了API接口。

  3.国外开源Python库Readability。

  4. 国产开源Python库GNE。

  5.国内部分硕士研究论文(百度文库可查)。

  6.其他基于深度学习的库,名字不记得了。我记得是微软工程师崔庆才写的。

  7.忘记了国外网站的名字,而且收费很贵。

  8. 有一种用Java写的外语,名字里有News,忘记了。

  你现在体验的算法就是受到了 GNE 的启发。在GNE的早期,我通读了源码,和原作者有过很多交流,查阅了很多知识。后来在我写的《Python3网络爬虫宝典》一书中,有一章讲解了GNE算法的原理和源码。再次感谢GNE青楠的作者。

  体验过浏览器的阅读模式,看过Readability的源码,看过国内能找到的相关论文。目前,深度学习相关的库和收费接口还没有测试。

  这类自动解析算法的优缺点是:效率、提取能力、准确性。就我接触过的几种算法发表一下看法:

  1. 可读性评分基于 HTML 标签的权重。比如p标签的权重高于div,h的权重高于span。在一个很规范的新闻网站里,效果还不错,但是整体计算出来的结果就很离谱了。

  

" />

  2.GNE-Early,早期的GNE是基于标点符号密度的,90%以上的网页文本解析都没有问题。但是在实际应用中发现了几个问题:内容会被截断,文字少会识别错误,发布时间和页面显示不一样。与文本提取相关的问题都是由密度算法引起的。时间不是一个准则,因为提取优先级和逻辑选择了另一种方式。

  3.国内论文,因为看不懂国外的,只能搜索国内的。一般来说,根据文字密度、标点符号密度、位置、距离等,效果其实不是很好。这里你可能会问,为什么论文中的结果这么好?

  那是因为测试的样本选得好!!!

  4. GNE-Modern,GNE Modern是基于人类视觉+新闻网页特征规则编写的。大体的逻辑就是网页的内容一般都在网页的中间,这样就可以消除左右上下的杂音。中间的噪声通过块的长度来判断,最终可以提取出非常准确的文本。

  技术细节不能透露太多,举个例子吧。上图中的蓝色块是放置图片的位置。从GNE-Modern的角度来看,它会认为蓝色方块的宽度和下面文字的宽度不一样,所以这个方块会是噪声,应该排除。

  先不说那些需要大量样本训练的深度学习算法,毕竟我自己没有体验过。但是有一点是可以肯定的,仅仅靠分类回归的深度学习是不可能取得好的结果的。不知道bert模型出来后有没有人训练出更好的模型。

  对比总结:在上面列举的例子中,GNE-Modern模型的文本提取效果是最好的,但是我记得是需要浏览器渲染,效率上好像没有找到好的解决方案。

  这篇文章的算法大家可以体验一下,毕竟实际体验才能证明好不好。我觉得从效率+准确率+抽取能力来说,这篇文章的算法可以排在第一位(这是很谦虚的一句话)。

  放上群友提供的bilibili栏目分析效果。

  算法的逻辑是什么

  不好意思,我现在不打算讨论这个问题,还没有开源,下一篇。

  参考了哪些算法

  前面说到Readability、GNE-early的源码,看过国内大部分相关论文。

  一开始我是在GNE-early的基础上优化修改的。

  看了很多深度学习的相关资料,最后还是决定不走这条路了,因为事实证明效果并没有达到我想要的效果。

  突然有一天,我在那里看《天籁九歌》那一集,得到了灵感。coding了一小段时间后,测试了一下,发现结果可行,就跳进去了。这个bundle是20年...

  错误的

  是200天

  哪些领域可以横向扩展

  现在主要用于新闻数据的分析,后期可以扩展到对招投标网页、电商网页、医药网页等的分析。

  如果从深度学习的角度来看,他们可能需要做不同的训练,准备不同的样本,使用不同的算法模型。但是从我的算法原理来看,都是一样的,适当改动一下就可以得到另一个领域的分析算法。

  参考

  [1] 体验页::3597/

  [2] 永福:林业科技特派员助力麻竹林:

  [3]在线工具:

  技术文章:沈阳网站seo排名公司(SEO教程网)

  沉阳网站seo排名公司

  整站优化公司的排名大多没有规律性,而专业的优化公司不仅仅看排名,除了排名之外,还要看三证是否齐全,是否有良好的口碑,以及他们是否可以给制定一个有针对性的计划。

  互联网的迅猛发展,由于不受时间和地域优势的制约,吸引了众多企业入驻平台。但是,这种竞争非常激烈。想要在同行中脱颖而出,除了积累一定的口碑外,还需要将自己的网站推向更高的位置。只有这样,您才能快速实现利润。

  但是,互联网平台上的整站优化公司发展非常迅速。那么,让企业不知道如何选择,也不知道排名是怎样的?因此,让我们来看看以下关于这些问题的内容。

  一、SEO全站优化排名分析!

  各行各业的竞争非常激烈,每个人都想成为自己人气和排名的佼佼者。因为,只有这样,才能有更多的机会走进客户的眼中,被他们消费,从而促进企业的不断发展。

  那么,整站优化公司的排名是怎样的呢?作为公司如何选择。其实大部分整站优化公司的排名是没有规则的,但是公司选择整站优化公司开办是基于以下三点,这关系到公司的发展:

  1.三证齐备

  在法制社会,虽然法制比较健全。但是,在经济业务面前,它似乎还是比较弱。因此,如果您要寻找网站优化公司,您需要找到营业执照、法人*敏*感*词*,以及完整的运营相关资质。三证齐全

  2、口碑好

  整站优化服务是不能用直视来判断的。因此,您需要找一家负责任、专业、靠谱的优化公司,这样才能快速看到效果,在同行中有影响力。

  3.能给出有针对性的方案

  虽然同一个行业的操作有时会大相径庭。但是,在一些细节上会有差异。所以,专业的、排名靠前的整站优化公司,都会给出针对性的方案,确保优化效果。

  总之,企业可以根据以上几点来选择整站优化公司。在此,为了节省企业的调研时间,与我们分享一下我们的蜘蛛业务网在帮助我们优化整个站点时所具有的一些优势。

  二、整站优化平台选择分析!

  1、计划有针对性

  虽然同行之间的竞争非常大,但每个企业需要解决的问题是不一样的。因此,我们会根据公司的经营状况和未来效果的预期值,综合制定详细的优化方案,以达到精准的流量和高转化率。计划有针对性

  2、保证内容丰富

  整个网站优化最不可或缺的就是内容。但是对于企业来说内容比较大,在互联网平台上抄袭、模仿。此类内容质量不高,不保证一定会被收录。

  但我们有专业的文案人员,可以帮助企业定时定量修改内容,保证更新后的内容能够被搜索引擎蜘蛛抓取,激发用户的访问兴趣,保证流量的转化率。

  3.排名稳定

  整个站点优化过程中最怕的就是中途搜索引擎的算法发生变化,让好不容易获得的优化效果荡然无存。因此,我们有专人全程监控网站后台,对异常跳出率及时做出调整。

  同时牢牢把握搜索引擎的蜘蛛爬行规律,保证优化效果不会消失,排名不会不稳定。如果我们有整站优化的需求,可以随时咨询我们的蜘蛛商务网~

  SEO教程网

  很多人不重视文章排名,但是马汇SEO认为文章排名是网站优化的开始。

  今天SEO自学网小课堂带来《优化文章关键词是网站优化的第一步》。我希望能有所帮助。

  一、SEO案例说明

  本次提起的案例是一个新网站发表了第一篇文章。这篇文章有几个比较好的关键词排名。

  ① 网站收录情况

  该网站只发布一篇文章,所以从百度的索引来看,整个域名也包括这篇文章,连首页都没有。

  ② 关键词 排名

  本文主要优化的关键词和排名如下:

  1)吸水环保冰袋

  目前百度移动端排名第一,百度PC端排名第三(低于百度图片和百度商机)。

  2) 环保冰袋

  PC端54个,移动端43个。

  3)环保冰袋批发

  PC端排名第29位,移动端排名第12位。

  4)环保冰袋价格

  PC端排名第29位,移动端排名第16位。

  5)环保冰袋厂家

  PC端排名第29位,移动端排名第18位。

  

" />

  2、优化文章排名是网站优化的第一步

  很多企业领导认为网站优化就是优化网站首页的关键词排名。导致首页关键词标题堆砌,标题作弊,导致搜索引擎降级。前段时间,很多网站连搜索品牌词,网站首页都显示不出来。

  小课堂SEO自学网认为,网站优化的第一步应该是优化文章排名,其优势如下:

  ①保证文章质量

  只有每一篇文章都用心写,保证文章的高质量,网站才能对搜索引擎友好。

  ② 利用文章优化长尾词

  在保证文章的高质量后,我们选择一些适合文章的、优化难度适中的长尾关键词,争取获取核心关键词以外的流量。做过SEO的人都明白,网站的核心关键词只是网站获得流量的一小部分。

  ③ 驱动栏目和首页关键词排名

  文章的长尾词是从首页的核心关键词延伸出来的,也可以从专栏的次要关键词延伸出来的。

  当我们的文章做了很多长尾关键词后,也会带动栏目子关键词和首页核心关键词的排名。

  ④ 网站会更健康

  马会SEO在做SEO诊断时会把首页排名、栏目排名、页面排名作为一定的参考,认为一个健康的网站应该有首页关键词排名、栏目关键词排名、聚合页面关键词 排名、主题页面 关键词 排名和文章页面 关键词 排名。

  如果你只有首页的关键词排名,一般来说,真的是远远不够的。当然也有那种变态网站,首页权重吓人,但是那种网站一旦首页出了问题,流量就会下降的很厉害。

  以上是SEO小课堂自学网带来的《优化文章关键词是网站优化的第一步》。感谢收看。网络营销培训,寻小课堂!SEO培训*敏*感*词*教室!

  更多seo教程,搜索小课堂。原创文章欢迎转载,版权所有:/小课堂SEO自学网,每天发布原创SEO和IT教程,喜欢记得点赞打赏。别忘了关注~

  沉阳网站seo排名公司

  沉阳搜索营销价格,帮助客户轻松实现网络营销 沉阳正辉科技*敏*感*词*,基于对企业不同发展阶段的具体需求的深刻理解,整合企业知识产权相关服务。2015年,公司获得国网青睐。商标注册管理,并成为首批入网。全国商标注册服务中心。持续为更多企业提供多层次服务。接触: 。

  搜索营销

  一般来说,凡是使用作弊或可疑手段的,都可以称为黑帽SEO。例如垃圾链接、隐藏网页、刷IP流量、桥接页面、关键词堆砌等。 互联网优化SEO黑帽是一种不被搜索引擎支持的*敏*感*词*,因为黑帽SEO挑战行业道德的底线,所以被广大白帽SEO所鄙视。垃圾索引(Spamdexing)是指使用欺骗技术和滥用搜索算法来推广不相关的、主要是商业网页。许多搜索引擎管理员认为任何形式的搜索引擎优化,其目的是提高网站的页面排名,都是索引垃圾邮件。然而,随着时间的推移,

  搜索营销

  目前,我国SEO市场还处于发展阶段,缺乏相应的监管机制,市场比较混乱。为了快速提高网站的关键词排名,很多人经常会使用一些可能被搜索引擎认为作弊的方法来快速达到排名效果。这样的做法无疑阻碍了SEO市场的健康发展。

  沉阳正辉科技*敏*感*词*,电话:。

  SEO教程网

  有大量的 SEO 教程网站。我在笑笑课堂上问了几位SEO网站的站长。手上有几个SEO教程网站,质量参差不齐。大家无法知道教程中的一些SEO优化知识是否正确。网络优化具有积极作用。SEO人员利用自媒体和高权重平台投稿,向大家推荐一些所谓的“SEO优化知识”。在某些情况下,这些知识是有用的,而在某些情况下,它可能会变得很累赘,比如大型站点与肖战的做法有很大的不同,如果某种技术用得太多,会导致过度优化.

  今天小课堂为大家带来的就是我们应该学习SEO优化知识的地方。我希望能有所帮助。

  1.独立优化的站点

  小课堂网认为,要想看一篇SEO文章,首先要看他自己的站点,无论是他的SEO博客还是其他站点,都要自己一点一点的做,可以看看。看看现在网站的权重是多少,关键词的排名如何,他所谓的SEO优化知识有没有应用到他的网站上,有没有取得一些成效。

  别听他给多少客户做过SEO外包,哪个网站权重高,关键词排名多高,日IP过百万等等,如果是假的,你知道吗?

  这并不是说 Little 在这里胡乱造谣。无言见过太多提供SEO外包服务的公司。他们这十几年的官网在站长之家和爱站网的SEO综合查询中没有百度权重。当然,就算百度权重不重要,还是看看关键词库里有没有非首页排名吧。如果关键词库没有文章页链接、专栏页链接、专题页链接等,那就不要听他们说网站长尾关键词带来的流量(很多长尾关键词没有百度索引,不参与综合查询的百度权重)。此外,大量的长尾关键词排名将驱动核心关键词

  下图中可以看到文章页的排名,也就是说有一个长尾的关键词排名,但是不能在关键词库中展示。

  2.原创SEO教程作者

  如果他的SEO博客经过评价真的不错,那你要看看他的文章是不是都是原创的SEO教程,为什么一定要原创?因为如果他所有的文章都是从别人那里采集

来的,那么你看到的文章可能不是他的观点,他的网站可能没有应用这样的SEO优化知识。自己增加网站采集

量,让更多人关注他。

  你为什么这么说?以前有一个做SEO教程的人从笑笑课堂上拿了一篇文章编辑,然后去站长家提交文章,结果还是通过了。无颜当时心中有些不满,继而诉苦,后来收回了稿子。先不说无言写的文章对不对,就算他是SEO高手,我是SEO菜鸟,他拿我的文章投稿,难道说这篇文章只是菜鸟的文章,不是他的自己的意见。

  如果SEO教程的作者不是原创,只是为了快速排名,只是抄袭,这样的文章不值得一读。

  在昨天的教程中,小小教网还提到,很多SEO教程网站抄袭了《八卦SEO是什么意思?》一文。独创性,在这种网站上,我们可以看到各种各样的人写的文章,他们的观点可能都是背道而驰的。怎样才能讲到有用的SEO优化知识呢?不过从他们抄袭的事件中也可以看出,网站的权重很高,即使抄袭了,他们的排名也比你好,即使有百度雄掌的原创保护。

  3.排名靠前的SEO网站

  小课堂在百度搜索关键词“SEO”、“SEO教程”、“SEO优化”、“什么是SEO”,排在前两页的网站都是优秀的SEO网站,我们可以观察他们的网站运行情况,哪些操作是可取的,哪些操作是绝对不可能的。但是您不必阅读他们的教程!因为前面说过,排名好的网站也想转载别人的文章。无言建议的是学习他们的网站关键词布局,网站结构优化等等。

  比如很多人认为友情链接没有用,或者干脆不做友情链接。但是让我们看看那些排名靠前的搜索引擎优化网站中有哪些没有很多朋友链接?很多人不喜欢做友链,喜欢做外链,但是垃圾外链对网站没有用,优质的外链供不应求,获取不到,所以是比较容易获取的方式高权重的友情链接,当然前提是我们网站的权重也是相当的。

  比如很多人不知道反链接有没有用,那就去看看那些网站反链接多不多。答案当然是肯定的。

  以上就是小分类网为您带来的SEO优化知识相关内容。感谢收看。

  记得喜欢就点赞,打赏。小课堂网,每天一个IT原创视频图文教程,别忘了关注。

  

" />

  沉阳网站seo排名公司

  松松小编杰哥近日从站长圈获悉,近期不少站长收到百度智能云的推广邮件,宣传“百推BaiSEO”优化工具。这个seo工具号称能拿下国内前五。搜索引擎首页排名,不要太疯狂!

  据杰哥了解,这个所谓的百推BaiSEO网站优化工具,确实有些东西。虽然背后的运营团队不是百度,而是一家叫乐都(北京)科技的互联网公司,但百推BaiSEO确实是百度云市场的官方产品,主营业务是SEO优化,也就是跟站长抢饭碗!

  其中,在核心业务网站SEO优化排名方面:百推BaiSEO表示可以抢占百度、360搜索、搜狗、神马、必应等国内顶级搜索引擎(PC端+移动端)的优先自然排名,以及,白推BaiSEO还支持关键词不限点击次数,搜索流量直达官网,保证365天稳定收录等效果,看着真唬人!

  在费用方面,白推BaiSEO采用年费方式。1、标准版6800元/年。可以添加5个主词和30个推荐词。2、高级版8800元/年。可以加5个主词和50个推荐词,3,专业版12800/年,可以加10个主词,100个推荐词4,高级版23800元/年可以加20个主词,保证200个推荐词5,旗舰版27800元/年可以添加50个主词,保证至少500个推荐词。反正价格越高,给的关键词和排名权就越高,到头来还是和快排一样烧钱!

  最后,对于白推BaiSEO工具,卢松松表达了自己的观点:这项业务应该属于第三方。之前卢松松问过百度相关人员,其实是他们在百度云市场投放的产品,就像淘宝和京东一样。产品是一样的,但另一方面,既然百度允许他们在自己的平台上光明正大地推广,能够抢占百度搜索排名,背后肯定有合作和支持。

  另一位站长表示,虽然打着百度智能云的旗号,但感觉这款产品比较便宜,价格比市面上快排的价格还要高。这个价格买不起!

  来源:卢松松博客。

  SEO教程网

  很多人不重视文章排名,但是马汇SEO认为文章排名是网站优化的开始。

  今天SEO自学网小课堂带来《优化文章关键词是网站优化的第一步》。我希望能有所帮助。

  一、SEO案例说明

  本次提起的案例是一个新网站发表了第一篇文章。这篇文章有几个比较好的关键词排名。

  ① 网站收录情况

  该网站只发布一篇文章,所以从百度的索引来看,整个域名也包括这篇文章,连首页都没有。

  ② 关键词 排名

  本文主要优化的关键词和排名如下:

  1)吸水环保冰袋

  目前百度移动端排名第一,百度PC端排名第三(低于百度图片和百度商机)。

  2) 环保冰袋

  PC端54个,移动端43个。

  3)环保冰袋批发

  PC端排名第29位,移动端排名第12位。

  4)环保冰袋价格

  PC端排名第29位,移动端排名第16位。

  5)环保冰袋厂家

  PC端排名第29位,移动端排名第18位。

  2、优化文章排名是网站优化的第一步

  很多企业领导认为网站优化就是优化网站首页的关键词排名。导致首页关键词标题堆砌,标题作弊,导致搜索引擎降级。前段时间,很多网站连搜索品牌词,网站首页都显示不出来。

  小课堂SEO自学网认为,网站优化的第一步应该是优化文章排名,其优势如下:

  ①保证文章质量

  只有每一篇文章都用心写,保证文章的高质量,网站才能对搜索引擎友好。

  ② 利用文章优化长尾词

  在保证文章的高质量后,我们选择一些适合文章的、优化难度适中的长尾关键词,争取获取核心关键词以外的流量。做过SEO的人都明白,网站的核心关键词只是网站获得流量的一小部分。

  ③ 驱动栏目和首页关键词排名

  文章的长尾词是从首页的核心关键词延伸出来的,也可以从专栏的次要关键词延伸出来的。

  当我们的文章做了很多长尾关键词后,也会带动栏目子关键词和首页核心关键词的排名。

  ④ 网站会更健康

  马会SEO在做SEO诊断时会把首页排名、栏目排名、页面排名作为一定的参考,认为一个健康的网站应该有首页关键词排名、栏目关键词排名、聚合页面关键词 排名、主题页面 关键词 排名和文章页面 关键词 排名。

  如果你只有首页的关键词排名,一般来说,真的是远远不够的。当然也有那种变态网站,首页权重吓人,但是那种网站一旦首页出了问题,流量就会下降的很厉害。

  以上是SEO小课堂自学网带来的《优化文章关键词是网站优化的第一步》。感谢收看。网络营销培训,寻小课堂!SEO培训*敏*感*词*教室!

  更多seo教程,搜索小课堂。原创文章欢迎转载,版权所有:/小课堂SEO自学网,每天发布原创SEO和IT教程,喜欢记得点赞打赏。别忘了关注~

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线