信息采集中的乱码问题
优采云 发布时间: 2020-06-23 08:01大家好,,碰到的一个问题。。自己写了个大型信息采集系统。。在多任务并行采集时,遇到了部份新闻乱码的情况。 不知道是哪些缘由。。由于多线程无法测试,,总结了可能的缘由及其方面:
1. 多网站信息采集时,,当多任务并行时,网站A的编码格式错觉得网站B的编码,,导致乱码现象。但是类中的方式都写了synchronize标示。
2. 问了防止上述问题,,采取了第二种策略。在数据库中预存 网站的编码格式。。每次采集从数据库读取编码格式。但是,,测试过后还是有部份信息有乱码问题。
3. 乱码现象是否和网路联接状况,网速相关呢。。
有这方面经验的,给些建议和策略吧。
问题补充:
牟盖南 写道
仅仅和编码有关,与网速等其他诱因均无关。
注意你打开的文件形式,也就是你判定是否乱码的标准是哪些。
建议不存数据库,URL->CharSet,毕竟网站的个数不是多的吓人吧,再或则配置文件足矣。
刚开始,,编码我是动态手动剖析编码的,
我是依照网页头文件的二进制流来剖析网页信息的编码格式。让我十分诧异的是,,经过大量的测试发觉: 在多任务并行处理运行的前提下,,同一个网站的新闻信息部份新闻信息是乱码。。一般100条新闻有大约10条左右的乱码信息。,,,断点发觉,网页源码都是乱码。。郁闷。。。其他不同的网站也有同样的问题。
问题补充:
maxm 写道
还有新闻采集下来后如何做的处理采集过来的文章乱码,可否贴出代码瞧瞧?
maxm 写道
还有新闻采集下来后如何做的处理,可否贴出代码瞧瞧?
这不是一两个类能填完的采集过来的文章乱码,,这涉及的知识很多的。。主要包括,,网络爬虫与信息抽取,两大方面的知识。