为每个网页写特征分析这个还是太耗费开发的时间

优采云 发布时间: 2021-05-25 19:38

  为每个网页写特征分析这个还是太耗费开发的时间

  创建一个新的网站,开头没有内容,通常需要抓取别人的Web内容,一般步骤如下:

  根据url下载网页内容,并根据每个网页的html结构特征使用正则表达式或其他方法解析文本,以提取所需的文本。

  每个网页的书写功能分析仍然太耗时。我的想法是这样。

  每个人都知道Python的BeautifulSoup软件包,对吧?

  import BeautifulSoup

soup = BeautifulSoup.BeautifulSoup(html)

  使用此软件包首先清理html中的脚本和样式:

  [script.extract() for script in soup.findAll('script')]

[style.extract() for style in soup.findAll('style')]

  清理后,此程序包具有prettify()函数以使代码格式更标准:

  soup.prettify()

  然后使用正则表达式清除所有HTML标签:

  reg1 = re.compile("]*>")

content = reg1.sub('',soup.prettify())

  其余为纯文本文件,通常逐行。排除空白行。然后,您将知道总共有几行,每行有多少个字符。我使用excel对每行中的字符数进行了一些统计,如下所示:

  

  x坐标是行数,y坐标是行中的字符数

  很明显,会有一个高峰。第81-91行应该是此页面的主体。我只需要从81到91行中提取文本行即可。

  问题在这里。根据这个想法,有什么好的算法可以使用数据分析来计数几行中的长文本的峰值?

  带有用于提取文本的开源python包,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线