为每个网页写特征分析这个还是太耗费开发的时间

优采云发布时间: 2021-05-25 19:38

　　创建一个新的网站，开头没有内容，通常需要抓取别人的Web内容，一般步骤如下：

　　根据url下载网页内容，并根据每个网页的html结构特征使用正则表达式或其他方法解析文本，以提取所需的文本。

　　每个网页的书写功能分析仍然太耗时。我的想法是这样。

　　每个人都知道Python的BeautifulSoup软件包，对吧？

　　import BeautifulSoup

soup = BeautifulSoup.BeautifulSoup(html)

　　使用此软件包首先清理html中的脚本和样式：

　　[script.extract() for script in soup.findAll('script')]

[style.extract() for style in soup.findAll('style')]

　　清理后，此程序包具有prettify（）函数以使代码格式更标准：

　　soup.prettify()

　　然后使用正则表达式清除所有HTML标签：

　　reg1 = re.compile("]*>")

content = reg1.sub('',soup.prettify())

　　其余为纯文本文件，通常逐行。排除空白行。然后，您将知道总共有几行，每行有多少个字符。我使用excel对每行中的字符数进行了一些统计，如下所示：

　　x坐标是行数，y坐标是行中的字符数

　　很明显，会有一个高峰。第81-91行应该是此页面的主体。我只需要从81到91行中提取文本行即可。

　　问题在这里。根据这个想法，有什么好的算法可以使用数据分析来计数几行中的长文本的峰值？

　　带有用于提取文本的开源python包，

0

2021-05-25

网站内容抓取

0 个评论

要回复文章请先登录或注册