文章网址采集器(字段过多，导致内容混乱，抓取的效率极低)

优采云发布时间: 2021-10-14 08:01

　　文章网址采集器原文字段过多，导致内容混乱，抓取的效率极低。经过多次优化，采集器支持多个字段过滤，如：筛选>，但是效率极低。内容浏览器支持ajax加载，

　　方法不限于以下几种，

　　如果两条线程切换时，处理的数据位置相同，

　　python中asyncio一行搞定

　　好久不写爬虫了，但是个人理解，还是asyncio好处多：执行效率高；支持multiprocessing；应该是python最好的异步io库了。针对题主的描述，我个人觉得题主可以尝试解决以下问题：1，定义asyncio的executor类，即一个执行线程（listen线程）。2，定义第一个asyncio的connect线程。

　　timer线程可以用于代理或者相当于协程，用于异步。参考python的socketio库的实现。参考futureeditor。3，在第二个线程中添加你要抓取的文件的网址（或者其他网址）。4，定义你抓取的文件以及网址的块。在中断线程的时候返回起始字节和结束字节。就完成了抓取。当然，我水平还是比较浅，抛砖引玉。

　　不对的地方望批评指正。最后总结下：1，数据结构要实现异步，数据块要分块2，异步协程不是在所有代码段都异步，抓取库中有相关的asyncio模块3，目前可以用timer线程来当协程，也可以用asyncio来当异步io库4，用lua或者luaubuntu.python,io相关的库要熟悉5，更容易被普遍认为效率高。

0

2021-10-14

文章网址采集器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章网址采集器(字段过多，导致内容混乱，抓取的效率极低)

0 个评论

发起人

AI时代内容工厂

文章网址采集器(字段过多，导致内容混乱，抓取的效率极低)

0 个评论

发起人

相关问题