最佳实践:dede织梦CMS采集过滤规则

优采云 发布时间: 2022-11-24 18:21

  最佳实践:dede织梦CMS采集过滤规则

  DEDECMS采集常用过滤规则

  DEDE采集规则中需要通用过滤的DEDECMS规则代码采集

  一般在DEDE采集的过程中,需要过滤或者删除或者注释掉一些别人的信息,比如:超链接,图片等,都需要用到这些过滤规则来标注所有不想要的资源待采集

这样会大大减少采集

到的垃圾信息,占用自己的空间。

  {dede:trim}{/dede:trim}

  {dede:trim}{/dede:trim}

  {德德:修剪}

  {dede:修剪}

  {德德:修剪}

  {dede:修剪}

  {dede:trim}{/dede:trim}

  {dede:trim}{/dede:trim}

  {dede:trim}{/dede:trim}

  

" />

  {dede:trim}{/dede:trim}

  {dede:trim}{/dede:trim}

  {dede:trim}{/dede:trim}

  {dede:trim}{/dede:trim}

  {dede:trim}{/dede:trim}

  {dede:trim}{/dede:trim}

  {dede:trim}{/dede:trim}

  {德德:修剪}

  {dede:修剪}

  {德德:修剪}

  {dede:修剪}

  {德德:修剪}

  {dede:修剪}

  

" />

  {dede:trim}{/dede:trim}

  {dede:trim}{/dede:trim}

  {dede:trim}{/dede:trim}

  {dede:trim}{/dede:trim}

  {dede:trim}{/dede:trim}

  {dede:trim}{/dede:trim}

  {dede:trim}{/dede:trim}

  下面是过滤“video”的代码,注意顺序

  {dede:trim}{/dede:trim}

  {dede:trim}{/dede:trim}

  {德德:修剪}

  {dede:修剪}

  注:本文为星速云原创版权,禁止转载。一经发现,追究版权责任!

  直观:C#写个简单数据采集工具

  

" />

  看预览图: 运行环境 windows nt/xp/2003 or Framework 1.1SqlServer 2000 开发环境 VS 2003 目的 学完网络编程,不如做点什么。所以我想到了做一个网页内容采集

器。作者主页:使用测试数据来自cnBlog。如下图,用户先填写“起始页”,即从哪个页面开始采集。然后填写数据库连接字符串,里面定义了采集到的数据会插入到哪个数据库中,后面选择表名就不用说了。对于网页编码,不出意外的话,中国大陆可以使用UTF-8抓取文件名:呵呵 这个工具明显是给程序员用的。规则必须直接填写。比如cnblogs都是数字的,所以写了\d建表帮助:用户指定创建多少个varchar类型和几个text类型的,主要放短数据和长数据。如果您的表中已有列,则它是免费的。程序中没有验证。在网页设置中:在采集的内容前后标注:比如有xxx,如果我要采集xxx,我就写“to”,意思当然是to之间的内容。接下来的几个文本框用于显示内容。点击“获取URL”,查看其抓取的Url是否正确。点击“采集

”,可以将采集

到的内容放入数据库,然后使用Insert xx()(选择xx)直接插入目标数据。程序代码量很小(也很简单),所以需要做一些改动。不足之处适用于正则表达式和网络编程,因为是最简单的东西,所以没有使用多线程,没有使用其他优化方法,不支持分页。我测试了一下,得到了38条数据,使用了700M内存。. . . 如果它有用,你可以改变它并使用它。方便程序员使用,无需编写大量代码。Surance Yin@Surance Center 转载请注明出处

  

" />

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线