信息采集中的乱码问题

优采云 发布时间: 2020-06-23 08:01

  大家好,,碰到的一个问题。。自己写了个大型信息采集系统。。在多任务并行采集时,遇到了部份新闻乱码的情况。 不知道是哪些缘由。。由于多线程无法测试,,总结了可能的缘由及其方面:

  1. 多网站信息采集时,,当多任务并行时,网站A的编码格式错觉得网站B的编码,,导致乱码现象。但是类中的方式都写了synchronize标示。

  2. 问了防止上述问题,,采取了第二种策略。在数据库中预存 网站的编码格式。。每次采集从数据库读取编码格式。但是,,测试过后还是有部份信息有乱码问题。

  3. 乱码现象是否和网路联接状况,网速相关呢。。

  有这方面经验的,给些建议和策略吧。

  问题补充:

  牟盖南 写道

  仅仅和编码有关,与网速等其他诱因均无关。

  注意你打开的文件形式,也就是你判定是否乱码的标准是哪些。

  建议不存数据库,URL->CharSet,毕竟网站的个数不是多的吓人吧,再或则配置文件足矣。

  刚开始,,编码我是动态手动剖析编码的,

  我是依照网页头文件的二进制流来剖析网页信息的编码格式。让我十分诧异的是,,经过大量的测试发觉: 在多任务并行处理运行的前提下,,同一个网站的新闻信息部份新闻信息是乱码。。一般100条新闻有大约10条左右的乱码信息。,,,断点发觉,网页源码都是乱码。。郁闷。。。其他不同的网站也有同样的问题。

  问题补充:

  maxm 写道

  还有新闻采集下来后如何做的处理采集过来的文章乱码,可否贴出代码瞧瞧?

  maxm 写道

  还有新闻采集下来后如何做的处理,可否贴出代码瞧瞧?

  这不是一两个类能填完的采集过来的文章乱码,,这涉及的知识很多的。。主要包括,,网络爬虫与信息抽取,两大方面的知识。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线