为每个网页写特征分析这个还是太耗费开发的时间
优采云 发布时间: 2021-05-25 19:38为每个网页写特征分析这个还是太耗费开发的时间
创建一个新的网站,开头没有内容,通常需要抓取别人的Web内容,一般步骤如下:
根据url下载网页内容,并根据每个网页的html结构特征使用正则表达式或其他方法解析文本,以提取所需的文本。
每个网页的书写功能分析仍然太耗时。我的想法是这样。
每个人都知道Python的BeautifulSoup软件包,对吧?
import BeautifulSoup
soup = BeautifulSoup.BeautifulSoup(html)
使用此软件包首先清理html中的脚本和样式:
[script.extract() for script in soup.findAll('script')]
[style.extract() for style in soup.findAll('style')]
清理后,此程序包具有prettify()函数以使代码格式更标准:
soup.prettify()
然后使用正则表达式清除所有HTML标签:
reg1 = re.compile("]*>")
content = reg1.sub('',soup.prettify())
其余为纯文本文件,通常逐行。排除空白行。然后,您将知道总共有几行,每行有多少个字符。我使用excel对每行中的字符数进行了一些统计,如下所示:
x坐标是行数,y坐标是行中的字符数
很明显,会有一个高峰。第81-91行应该是此页面的主体。我只需要从81到91行中提取文本行即可。
问题在这里。根据这个想法,有什么好的算法可以使用数据分析来计数几行中的长文本的峰值?
带有用于提取文本的开源python包,