信息采集中的乱码问题

优采云发布时间: 2020-06-23 08:01

　　大家好，，碰到的一个问题。。自己写了个大型信息采集系统。。在多任务并行采集时，遇到了部份新闻乱码的情况。不知道是哪些缘由。。由于多线程无法测试，，总结了可能的缘由及其方面：

　　1. 多网站信息采集时，，当多任务并行时，网站A的编码格式错觉得网站B的编码，，导致乱码现象。但是类中的方式都写了synchronize标示。

　　2. 问了防止上述问题，，采取了第二种策略。在数据库中预存网站的编码格式。。每次采集从数据库读取编码格式。但是，，测试过后还是有部份信息有乱码问题。

　　3. 乱码现象是否和网路联接状况，网速相关呢。。

　　有这方面经验的，给些建议和策略吧。

　　问题补充：

　　牟盖南写道

　　仅仅和编码有关，与网速等其他诱因均无关。

　　注意你打开的文件形式，也就是你判定是否乱码的标准是哪些。

　　建议不存数据库，URL->CharSet，毕竟网站的个数不是多的吓人吧，再或则配置文件足矣。

　　刚开始，，编码我是动态手动剖析编码的，

　　我是依照网页头文件的二进制流来剖析网页信息的编码格式。让我十分诧异的是，，经过大量的测试发觉：在多任务并行处理运行的前提下，，同一个网站的新闻信息部份新闻信息是乱码。。一般100条新闻有大约10条左右的乱码信息。，，，断点发觉，网页源码都是乱码。。郁闷。。。其他不同的网站也有同样的问题。

　　问题补充：

　　maxm 写道

　　还有新闻采集下来后如何做的处理采集过来的文章乱码，可否贴出代码瞧瞧？

　　maxm 写道

　　还有新闻采集下来后如何做的处理，可否贴出代码瞧瞧？

　　这不是一两个类能填完的采集过来的文章乱码，，这涉及的知识很多的。。主要包括，，网络爬虫与信息抽取，两大方面的知识。

0

2020-06-23

编码乱码采集

0 个评论

要回复文章请先登录或注册