乱码

乱码

信息采集中的乱码问题

采集交流优采云 发表了文章 • 0 个评论 • 378 次浏览 • 2020-06-23 08:01 • 来自相关话题

  大家好,,碰到的一个问题。。自己写了个大型信息采集系统。。在多任务并行采集时,遇到了部份新闻乱码的情况。 不知道是哪些缘由。。由于多线程无法测试,,总结了可能的缘由及其方面:
  1. 多网站信息采集时,,当多任务并行时,网站A的编码格式错觉得网站B的编码,,导致乱码现象。但是类中的方式都写了synchronize标示。
  2. 问了防止上述问题,,采取了第二种策略。在数据库中预存 网站的编码格式。。每次采集从数据库读取编码格式。但是,,测试过后还是有部份信息有乱码问题。
  3. 乱码现象是否和网路联接状况,网速相关呢。。
  有这方面经验的,给些建议和策略吧。
  问题补充:
  牟盖南 写道
  仅仅和编码有关,与网速等其他诱因均无关。
  注意你打开的文件形式,也就是你判定是否乱码的标准是哪些。
  建议不存数据库,URL->CharSet,毕竟网站的个数不是多的吓人吧,再或则配置文件足矣。
  刚开始,,编码我是动态手动剖析编码的,
  我是依照网页头文件的二进制流来剖析网页信息的编码格式。让我十分诧异的是,,经过大量的测试发觉: 在多任务并行处理运行的前提下,,同一个网站的新闻信息部份新闻信息是乱码。。一般100条新闻有大约10条左右的乱码信息。,,,断点发觉,网页源码都是乱码。。郁闷。。。其他不同的网站也有同样的问题。
  问题补充:
  maxm 写道
  还有新闻采集下来后如何做的处理采集过来的文章乱码,可否贴出代码瞧瞧?
  maxm 写道
  还有新闻采集下来后如何做的处理,可否贴出代码瞧瞧?
  这不是一两个类能填完的采集过来的文章乱码,,这涉及的知识很多的。。主要包括,,网络爬虫与信息抽取,两大方面的知识。 查看全部

  大家好,,碰到的一个问题。。自己写了个大型信息采集系统。。在多任务并行采集时,遇到了部份新闻乱码的情况。 不知道是哪些缘由。。由于多线程无法测试,,总结了可能的缘由及其方面:
  1. 多网站信息采集时,,当多任务并行时,网站A的编码格式错觉得网站B的编码,,导致乱码现象。但是类中的方式都写了synchronize标示。
  2. 问了防止上述问题,,采取了第二种策略。在数据库中预存 网站的编码格式。。每次采集从数据库读取编码格式。但是,,测试过后还是有部份信息有乱码问题。
  3. 乱码现象是否和网路联接状况,网速相关呢。。
  有这方面经验的,给些建议和策略吧。
  问题补充:
  牟盖南 写道
  仅仅和编码有关,与网速等其他诱因均无关。
  注意你打开的文件形式,也就是你判定是否乱码的标准是哪些。
  建议不存数据库,URL->CharSet,毕竟网站的个数不是多的吓人吧,再或则配置文件足矣。
  刚开始,,编码我是动态手动剖析编码的,
  我是依照网页头文件的二进制流来剖析网页信息的编码格式。让我十分诧异的是,,经过大量的测试发觉: 在多任务并行处理运行的前提下,,同一个网站的新闻信息部份新闻信息是乱码。。一般100条新闻有大约10条左右的乱码信息。,,,断点发觉,网页源码都是乱码。。郁闷。。。其他不同的网站也有同样的问题。
  问题补充:
  maxm 写道
  还有新闻采集下来后如何做的处理采集过来的文章乱码,可否贴出代码瞧瞧?
  maxm 写道
  还有新闻采集下来后如何做的处理,可否贴出代码瞧瞧?
  这不是一两个类能填完的采集过来的文章乱码,,这涉及的知识很多的。。主要包括,,网络爬虫与信息抽取,两大方面的知识。

QueryList采集器开发指南

采集交流优采云 发表了文章 • 0 个评论 • 377 次浏览 • 2020-05-28 08:01 • 来自相关话题

  
  出现乱码的问题好多,解决方式也不尽相同采集过来的文章乱码,要视具体情况而定,以下几种乱码解决方案仅供参考。
  Query方式:
  QueryList::Query(采集的目标页面,采集规则[,区域选择器][,输出编码][,输入编码][,是否移除背部])
  1.设置输入输出编码
  $html =<<<STR
<div>
   <p>这是内容</p>
</div>
STR;
$rule = array(
   'content' => array('div>p:last','text')
);
$data = QueryList::Query($html,$rule,'','UTF-8','GB2312',true)->data;
  2.设置输入输出编码,并设置最后一个参数为true
  如果设置输入输出参数始终未能解决乱码采集过来的文章乱码,那就设置最后一个参数为true(移除背部)
  $html =<<<STR
<div>
   <p>这是内容</p>
</div>
STR;
$rule = array(
   'content' => array('div>p:last','text')
);
$data = QueryList::Query($html,$rule,'','UTF-8','GB2312',true)->data;
  乱码:#all 查看全部

  
  出现乱码的问题好多,解决方式也不尽相同采集过来的文章乱码,要视具体情况而定,以下几种乱码解决方案仅供参考。
  Query方式:
  QueryList::Query(采集的目标页面,采集规则[,区域选择器][,输出编码][,输入编码][,是否移除背部])
  1.设置输入输出编码
  $html =<<<STR
<div>
   <p>这是内容</p>
</div>
STR;
$rule = array(
   'content' => array('div>p:last','text')
);
$data = QueryList::Query($html,$rule,'','UTF-8','GB2312',true)->data;
  2.设置输入输出编码,并设置最后一个参数为true
  如果设置输入输出参数始终未能解决乱码采集过来的文章乱码,那就设置最后一个参数为true(移除背部)
  $html =<<<STR
<div>
   <p>这是内容</p>
</div>
STR;
$rule = array(
   'content' => array('div>p:last','text')
);
$data = QueryList::Query($html,$rule,'','UTF-8','GB2312',true)->data;
  乱码:#all

采集乱码解决方案

采集交流优采云 发表了文章 • 0 个评论 • 425 次浏览 • 2020-05-26 08:00 • 来自相关话题

  
  出现乱码的问题好多,解决方式也不尽相同,要视具体情况而定采集过来的文章乱码,以下几种乱码解决方案仅供参考。
  Query方式:
  QueryList::Query(采集的目标页面,采集规则[,区域选择器][,输出编码][,输入编码][,是否移除头部])
  1.设置输入输出编码
  $html =<<<STR
<div>
<p>这是内容</p>
</div>
STR;
$rule = array(
'content' => array('div>p:last','text')
);
$data = QueryList::Query($html,$rule,'','UTF-8','GB2312')->data;
  2.设置输入输出编码,并设置最后一个参数为true假如设置输入输出参数始终未能解决乱码采集过来的文章乱码,那就设置最后一个参数为true(移除背部)
  $html =<<<STR
<div>
<p>这是内容</p>
</div>
STR;
$rule = array(
'content' => array('div>p:last','text')
);
$data = QueryList::Query($html,$rule,'','UTF-8','GB2312',true)->data; 查看全部

  
  出现乱码的问题好多,解决方式也不尽相同,要视具体情况而定采集过来的文章乱码,以下几种乱码解决方案仅供参考。
  Query方式:
  QueryList::Query(采集的目标页面,采集规则[,区域选择器][,输出编码][,输入编码][,是否移除头部])
  1.设置输入输出编码
  $html =<<<STR
<div>
<p>这是内容</p>
</div>
STR;
$rule = array(
'content' => array('div>p:last','text')
);
$data = QueryList::Query($html,$rule,'','UTF-8','GB2312')->data;
  2.设置输入输出编码,并设置最后一个参数为true假如设置输入输出参数始终未能解决乱码采集过来的文章乱码,那就设置最后一个参数为true(移除背部)
  $html =<<<STR
<div>
<p>这是内容</p>
</div>
STR;
$rule = array(
'content' => array('div>p:last','text')
);
$data = QueryList::Query($html,$rule,'','UTF-8','GB2312',true)->data;

信息采集中的乱码问题

采集交流优采云 发表了文章 • 0 个评论 • 378 次浏览 • 2020-06-23 08:01 • 来自相关话题

  大家好,,碰到的一个问题。。自己写了个大型信息采集系统。。在多任务并行采集时,遇到了部份新闻乱码的情况。 不知道是哪些缘由。。由于多线程无法测试,,总结了可能的缘由及其方面:
  1. 多网站信息采集时,,当多任务并行时,网站A的编码格式错觉得网站B的编码,,导致乱码现象。但是类中的方式都写了synchronize标示。
  2. 问了防止上述问题,,采取了第二种策略。在数据库中预存 网站的编码格式。。每次采集从数据库读取编码格式。但是,,测试过后还是有部份信息有乱码问题。
  3. 乱码现象是否和网路联接状况,网速相关呢。。
  有这方面经验的,给些建议和策略吧。
  问题补充:
  牟盖南 写道
  仅仅和编码有关,与网速等其他诱因均无关。
  注意你打开的文件形式,也就是你判定是否乱码的标准是哪些。
  建议不存数据库,URL->CharSet,毕竟网站的个数不是多的吓人吧,再或则配置文件足矣。
  刚开始,,编码我是动态手动剖析编码的,
  我是依照网页头文件的二进制流来剖析网页信息的编码格式。让我十分诧异的是,,经过大量的测试发觉: 在多任务并行处理运行的前提下,,同一个网站的新闻信息部份新闻信息是乱码。。一般100条新闻有大约10条左右的乱码信息。,,,断点发觉,网页源码都是乱码。。郁闷。。。其他不同的网站也有同样的问题。
  问题补充:
  maxm 写道
  还有新闻采集下来后如何做的处理采集过来的文章乱码,可否贴出代码瞧瞧?
  maxm 写道
  还有新闻采集下来后如何做的处理,可否贴出代码瞧瞧?
  这不是一两个类能填完的采集过来的文章乱码,,这涉及的知识很多的。。主要包括,,网络爬虫与信息抽取,两大方面的知识。 查看全部

  大家好,,碰到的一个问题。。自己写了个大型信息采集系统。。在多任务并行采集时,遇到了部份新闻乱码的情况。 不知道是哪些缘由。。由于多线程无法测试,,总结了可能的缘由及其方面:
  1. 多网站信息采集时,,当多任务并行时,网站A的编码格式错觉得网站B的编码,,导致乱码现象。但是类中的方式都写了synchronize标示。
  2. 问了防止上述问题,,采取了第二种策略。在数据库中预存 网站的编码格式。。每次采集从数据库读取编码格式。但是,,测试过后还是有部份信息有乱码问题。
  3. 乱码现象是否和网路联接状况,网速相关呢。。
  有这方面经验的,给些建议和策略吧。
  问题补充:
  牟盖南 写道
  仅仅和编码有关,与网速等其他诱因均无关。
  注意你打开的文件形式,也就是你判定是否乱码的标准是哪些。
  建议不存数据库,URL->CharSet,毕竟网站的个数不是多的吓人吧,再或则配置文件足矣。
  刚开始,,编码我是动态手动剖析编码的,
  我是依照网页头文件的二进制流来剖析网页信息的编码格式。让我十分诧异的是,,经过大量的测试发觉: 在多任务并行处理运行的前提下,,同一个网站的新闻信息部份新闻信息是乱码。。一般100条新闻有大约10条左右的乱码信息。,,,断点发觉,网页源码都是乱码。。郁闷。。。其他不同的网站也有同样的问题。
  问题补充:
  maxm 写道
  还有新闻采集下来后如何做的处理采集过来的文章乱码,可否贴出代码瞧瞧?
  maxm 写道
  还有新闻采集下来后如何做的处理,可否贴出代码瞧瞧?
  这不是一两个类能填完的采集过来的文章乱码,,这涉及的知识很多的。。主要包括,,网络爬虫与信息抽取,两大方面的知识。

QueryList采集器开发指南

采集交流优采云 发表了文章 • 0 个评论 • 377 次浏览 • 2020-05-28 08:01 • 来自相关话题

  
  出现乱码的问题好多,解决方式也不尽相同采集过来的文章乱码,要视具体情况而定,以下几种乱码解决方案仅供参考。
  Query方式:
  QueryList::Query(采集的目标页面,采集规则[,区域选择器][,输出编码][,输入编码][,是否移除背部])
  1.设置输入输出编码
  $html =<<<STR
<div>
   <p>这是内容</p>
</div>
STR;
$rule = array(
   'content' => array('div>p:last','text')
);
$data = QueryList::Query($html,$rule,'','UTF-8','GB2312',true)->data;
  2.设置输入输出编码,并设置最后一个参数为true
  如果设置输入输出参数始终未能解决乱码采集过来的文章乱码,那就设置最后一个参数为true(移除背部)
  $html =<<<STR
<div>
   <p>这是内容</p>
</div>
STR;
$rule = array(
   'content' => array('div>p:last','text')
);
$data = QueryList::Query($html,$rule,'','UTF-8','GB2312',true)->data;
  乱码:#all 查看全部

  
  出现乱码的问题好多,解决方式也不尽相同采集过来的文章乱码,要视具体情况而定,以下几种乱码解决方案仅供参考。
  Query方式:
  QueryList::Query(采集的目标页面,采集规则[,区域选择器][,输出编码][,输入编码][,是否移除背部])
  1.设置输入输出编码
  $html =<<<STR
<div>
   <p>这是内容</p>
</div>
STR;
$rule = array(
   'content' => array('div>p:last','text')
);
$data = QueryList::Query($html,$rule,'','UTF-8','GB2312',true)->data;
  2.设置输入输出编码,并设置最后一个参数为true
  如果设置输入输出参数始终未能解决乱码采集过来的文章乱码,那就设置最后一个参数为true(移除背部)
  $html =<<<STR
<div>
   <p>这是内容</p>
</div>
STR;
$rule = array(
   'content' => array('div>p:last','text')
);
$data = QueryList::Query($html,$rule,'','UTF-8','GB2312',true)->data;
  乱码:#all

采集乱码解决方案

采集交流优采云 发表了文章 • 0 个评论 • 425 次浏览 • 2020-05-26 08:00 • 来自相关话题

  
  出现乱码的问题好多,解决方式也不尽相同,要视具体情况而定采集过来的文章乱码,以下几种乱码解决方案仅供参考。
  Query方式:
  QueryList::Query(采集的目标页面,采集规则[,区域选择器][,输出编码][,输入编码][,是否移除头部])
  1.设置输入输出编码
  $html =<<<STR
<div>
<p>这是内容</p>
</div>
STR;
$rule = array(
'content' => array('div>p:last','text')
);
$data = QueryList::Query($html,$rule,'','UTF-8','GB2312')->data;
  2.设置输入输出编码,并设置最后一个参数为true假如设置输入输出参数始终未能解决乱码采集过来的文章乱码,那就设置最后一个参数为true(移除背部)
  $html =<<<STR
<div>
<p>这是内容</p>
</div>
STR;
$rule = array(
'content' => array('div>p:last','text')
);
$data = QueryList::Query($html,$rule,'','UTF-8','GB2312',true)->data; 查看全部

  
  出现乱码的问题好多,解决方式也不尽相同,要视具体情况而定采集过来的文章乱码,以下几种乱码解决方案仅供参考。
  Query方式:
  QueryList::Query(采集的目标页面,采集规则[,区域选择器][,输出编码][,输入编码][,是否移除头部])
  1.设置输入输出编码
  $html =<<<STR
<div>
<p>这是内容</p>
</div>
STR;
$rule = array(
'content' => array('div>p:last','text')
);
$data = QueryList::Query($html,$rule,'','UTF-8','GB2312')->data;
  2.设置输入输出编码,并设置最后一个参数为true假如设置输入输出参数始终未能解决乱码采集过来的文章乱码,那就设置最后一个参数为true(移除背部)
  $html =<<<STR
<div>
<p>这是内容</p>
</div>
STR;
$rule = array(
'content' => array('div>p:last','text')
);
$data = QueryList::Query($html,$rule,'','UTF-8','GB2312',true)->data;

官方客服QQ群

微信人工客服

QQ人工客服


线