文章网址采集器(字段过多,导致内容混乱,抓取的效率极低)

优采云 发布时间: 2021-10-14 08:01

  文章网址采集器(字段过多,导致内容混乱,抓取的效率极低)

  文章网址采集器原文字段过多,导致内容混乱,抓取的效率极低。经过多次优化,采集器支持多个字段过滤,如:筛选>,但是效率极低。内容浏览器支持ajax加载,

  方法不限于以下几种,

  如果两条线程切换时,处理的数据位置相同,

  python中asyncio一行搞定

  好久不写爬虫了,但是个人理解,还是asyncio好处多:执行效率高;支持multiprocessing;应该是python最好的异步io库了。针对题主的描述,我个人觉得题主可以尝试解决以下问题:1,定义asyncio的executor类,即一个执行线程(listen线程)。2,定义第一个asyncio的connect线程。

  timer线程可以用于代理或者相当于协程,用于异步。参考python的socketio库的实现。参考futureeditor。3,在第二个线程中添加你要抓取的文件的网址(或者其他网址)。4,定义你抓取的文件以及网址的块。在中断线程的时候返回起始字节和结束字节。就完成了抓取。当然,我水平还是比较浅,抛砖引玉。

  不对的地方望批评指正。最后总结下:1,数据结构要实现异步,数据块要分块2,异步协程不是在所有代码段都异步,抓取库中有相关的asyncio模块3,目前可以用timer线程来当协程,也可以用asyncio来当异步io库4,用lua或者luaubuntu.python,io相关的库要熟悉5,更容易被普遍认为效率高。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线