解读:织梦DedeCMS 5.5 实现自定义标题处理(附采集规则)

优采云 发布时间: 2022-09-28 12:10

  解读:织梦DedeCMS 5.5 实现自定义标题处理(附采集规则)

  Dedecms 5.5 实现自定义标题处理,在 {dede:function}@me=’’.@me{/dede:function}中添加自定义的处理方法,就可以实现自定义DedeCMS5.5 5.3的接口处理效果

  以下为引用的内容:

  {dede:sppage sptype=’full’}{/dede:sppage}

  {dede:previewurl}{/dede:previewurl}

  {dede:keywordtrim}{/dede:keywordtrim}

  {dede:descriptiontrim}{/dede:descriptiontrim}

  {dede:item field=’title’ value=” isunit=” isdown=”}

  {dede:match}[内容]{/dede:match}

  {dede:trim replace=””}_开 发 者_网上学园_科技时代_新浪网{/dede:trim}

  {dede:function}@me=’’.@me{/dede:function}

  

  {/dede:item}{dede:item field=’writer’ value=” isunit=” isdown=”}

  {dede:match}{/dede:match}

  {dede:function}{/dede:function}

  {/dede:item}{dede:item field=’source’ value=” isunit=” isdown=”}

  {dede:match}{/dede:match}

  {dede:function}{/dede:function}

  {/dede:item}{dede:item field=’pubdate’ value=” isunit=” isdown=”}

  {dede:match}{/dede:match}

  {dede:function}{/dede:function}

  {/dede:item}{dede:item field=’body’ value=” isunit=’1′ isdown=’1′}

  {dede:match}

  [内容]

  

  {/dede:match}

  {dede:trim replace=”}]*)>(.*){/dede:trim}

  {dede:trim replace=”}{/dede:trim}

  {dede:trim replace=”}

  ]*)>{/dede:trim}

  {dede:trim replace=”}{/dede:trim}

  {dede:trim replace=”}]*)>(.*){/dede:trim}

  {dede:trim replace=”}]*)>(.*){/dede:trim}

  {dede:function}{/dede:function}

  {/dede:item}

  测试5.5的采集规则

  以下为引用的内容:

  BASE64:e2RlZGU6bGlzdGNvbmZpZ30NCntkZWRlOm5vdGVpbmZvIG5vdGVuYW1lPSJqYXZhc2NycHQiIGNoYW5uZWxpZD0iMSIgbWFjdGh0eXBlPSJzdHJpbmciDQoJcmVmdXJsPSJodHRwOi8vIiBzb3VyY2VsYW5nPSJnYjIzMTIiIGNvc29ydD0iYXNjIg0KICBpc3JlZj0ieWVzIiBleHB0aW1lPSIxMCIgdXNlbW9yZT0iMCIgL30NCntkZWRlOmxpc3RydWxlIHNvdXJjZXR5cGU9ImhhbmQiIHJzc3VybD0iaHR0cDovLyIgcmVneHVybD0iaHR0cDovLyINCnN0YXJ0aWQ9IjEiIGVuZGlkPSIiIGFkZHY9IjEiIHVybHJ1bGU9ImFyZWEiIG11c3RoYXM9IiINCiBub3RoYXM9IiIgbGlzdHBpYz0iMSIgdXNlbW9yZT0iMCJ9DQoJe2RlZGU6YWRkdXJsc31odHRwOi8vdGVjaC5zaW5hLmNvbS5jbi9pbnRyb2R1Y3Rpb24vZm9jdXMvamF2YXNjcmlwdC5zaHRtbHsvZGVkZTphZGR1cmxzfQ0KCXtkZWRlOmJhdGNocnVsZX17L2RlZGU6YmF0Y2hydWxlfQ0KCXtkZWRlOnJlZ3hydWxlfXsvZGVkZTpyZWd4cnVsZX0NCgl7ZGVkZTphcmVhc3RhcnR9PGEgbmFtZT3mioDlt6flpKflhag+PC9hPnsvZGVkZTphcmVhc3RhcnR9DQoJe2RlZGU6YXJlYWVuZH08VEFCTEUgYm9yZGVyPTAgY2VsbFBhZGRpbmc9MSBjZWxsU3BhY2luZz0wIHdpZHRoPTk3JT48dHI+PHRkIGhlaWdodD01IGJnY29sb3I9I2ZmZmZmZiBjb2xzcGFuPTI+PGltZyBzcmM9aHR0cDovL2ltYWdlMi5zaW5hLmNvbS5jbi9jLmdpZiB3aWR0aD0xIGhlaWdodD0xPjwvdHI+PC9UQUJMRT57L2RlZGU6YXJlYWVuZH0NCnsvZGVkZTpsaXN0cnVsZX0NCg0Key9kZWRlOmxpc3Rjb25maWd9DQoNCntkZWRlOml0ZW1jb25maWd9DQp7ZGVkZTpzcHBhZ2Ugc3B0eXBlPSdmdWxsJ317L2RlZGU6c3BwYWdlfQ0Ke2RlZGU6cHJldmlld3VybH1odHRwOi8vdGVjaC5zaW5hLmNvbS5jbi9jLzIwMDMtMDQtMTgvMTg2ODkuaHRtbHsvZGVkZTpwcmV2aWV3dXJsfQ0Ke2RlZGU6a2V5d29yZHRyaW19ey9kZWRlOmtleXdvcmR0cmltfQ0Ke2RlZGU6ZGVzY3JpcHRpb250cmltfXsvZGVkZTpkZXNjcmlwdGlvbnRyaW19DQp7ZGVkZTppdGVtIGZpZWxkPSd0aXRsZScgdmFsdWU9JycgaXN1bml0PScnIGlzZG93bj0nJ30NCiAgIHtkZWRlOm1hdGNofTx0aXRsZT5b5YaF5a65XTwvdGl0bGU+ey9kZWRlOm1hdGNofQ0KICAge2RlZGU6dHJpbSByZXBsYWNlPSIifV/lvIAg5Y+RIOiAhV/nvZHkuIrlrablm61f56eR5oqA5pe25LujX+aWsOa1que9kXsvZGVkZTp0cmltfQ0KICAge2RlZGU6ZnVuY3Rpb259QG1lPSc2NGVkdS5jb20nLkBtZXsvZGVkZTpmdW5jdGlvbn0NCnsvZGVkZTppdGVtfXtkZWRlOml0ZW0gZmllbGQ9J3dyaXRlcicgdmFsdWU9JycgaXN1bml0PScnIGlzZG93bj0nJ30NCiAgIHtkZWRlOm1hdGNofXsvZGVkZTptYXRjaH0NCiAgIA0KICAge2RlZGU6ZnVuY3Rpb259ey9kZWRlOmZ1bmN0aW9ufQ0Key9kZWRlOml0ZW19e2RlZGU6aXRlbSBmaWVsZD0nc291cmNlJyB2YWx1ZT0nJyBpc3VuaXQ9JycgaXNkb3duPScnfQ0KICAge2RlZGU6bWF0Y2h9ey9kZWRlOm1hdGNofQ0KICAgDQogICB7ZGVkZTpmdW5jdGlvbn17L2RlZGU6ZnVuY3Rpb259DQp7L2RlZGU6aXRlbX17ZGVkZTppdGVtIGZpZWxkPSdwdWJkYXRlJyB2YWx1ZT0nJyBpc3VuaXQ9JycgaXNkb3duPScnfQ0KICAge2RlZGU6bWF0Y2h9ey9kZWRlOm1hdGNofQ0KICAgDQogICB7ZGVkZTpmdW5jdGlvbn17L2RlZGU6ZnVuY3Rpb259DQp7L2RlZGU6aXRlbX17ZGVkZTppdGVtIGZpZWxkPSdib2R5JyB2YWx1ZT0nJyBpc3VuaXQ9JzEnIGlzZG93bj0nMSd9DQogICB7ZGVkZTptYXRjaH08dHI+PHRoIGNsYXNzPWYyND48Zm9udCBjb2xvcj0jMDUwMDZDPlvlhoXlrrldPHRhYmxlIHdpZHRoPTU2NSBib3JkZXI9MCBjZWxsc3BhY2luZz0wIGNlbGxwYWRkaW5nPTA+ey9kZWRlOm1hdGNofQ0KICAge2RlZGU6dHJpbSByZXBsYWNlPScnfTxhKFtePl0qKT4oLiopPC9hPnsvZGVkZTp0cmltfQ0Ke2RlZGU6dHJpbSByZXBsYWNlPScnfTwhLS0oLiopLS0+ey9kZWRlOnRyaW19DQp7ZGVkZTp0cmltIHJlcGxhY2U9Jyd9PGltZyhbXj5dKik+ey9kZWRlOnRyaW19DQp7ZGVkZTp0cmltIHJlcGxhY2U9Jyd9PG9iamVjdChbXj5dKik+KC4qKTwvb2JqZWN0PnsvZGVkZTp0cmltfQ0Ke2RlZGU6dHJpbSByZXBsYWNlPScnfTxlbWJlZChbXj5dKik+KC4qKTwvZW1iZWQ+ey9kZWRlOnRyaW19DQp7ZGVkZTp0cmltIHJlcGxhY2U9Jyd9PGlmcmFtZShbXj5dKik+KC4qKTwvaWZyYW1lPnsvZGVkZTp0cmltfQ0KICAge2RlZGU6ZnVuY3Rpb259ey9kZWRlOmZ1bmN0aW9ufQ0Key9kZWRlOml0ZW19DQp7L2RlZGU6aXRlbWNvbmZpZ30=:END

  核心方法:一种基于语义分析的证券资讯查重方法及系统

  

  [0140] 本实施例提供的一种基于语义分析的证券资讯查重系统,包括:资讯采集模块,用于从撰写资讯的业务系统中实时采集最新的待检测资讯数据;中控模块,用于采用文本切分算法对所述待检测资讯数据进行分块处理,得到若干个资讯分块后提交到爬虫系统模块;从爬虫系统模块中获取所述资讯分块的爬虫数据,并将所述待检测资讯数据和爬虫数据提交至语义引擎计算模块,以使语义引擎计算模块完成语义相似度的计算;爬虫系统模块,用于分别对每个所述资讯分块进行爬虫处理,得到对应的关联文本后采用网页分块方法和网页信息结构化提取方法进行清洗拼装,得到最终爬虫数据;语义引擎计算模块,用于采用simhash邻域算法和最大文本片段算法对所述待检测资讯数据和所述最终爬虫数据依次进行邻域检索和语义相似度计算,最终得到语义相似度计算结果。本发明提出基于simhash算法和最大文本片段算法的查重检测方法,通过与爬虫系统有机结合,在不需建立文本库的前提下解决证券行业资讯原创检测的问题,能自动检测出资讯中抄袭的句子以及抄袭的原文,节省了大量的人力成本和机器成本,并提高查重的精确度和效率。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线