网站内容管理系统论文([关键词]电子商务网站eb内容挖掘的典型分类及其应用)
优采云 发布时间: 2022-04-18 04:22网站内容管理系统论文([关键词]电子商务网站eb内容挖掘的典型分类及其应用)
[摘要] 随着网络技术的飞速发展,电子商务行业正处于高速发展时期,各类业务网站应运而生。如何从海量的业务网站数据中获取有用的信息,成为亟待解决的问题。本文分析了eb内容挖掘在电子商务中的应用网站以及如何获取数据源。
[关键词]电子商务网站eb内容挖掘数据源
一、简介
对于电子商务网站来说,大量的非结构化数据和信息如文档、图像、声音等存储在互联网上,用户群体也呈现出多样性,也就是说,每次浏览< @k17@ > 有不同需求、兴趣和浏览目的的人。一个小规模的电子商务网站每天要处理成千上万的业务,那么如何从这些数据中找到有用的信息,帮助电子商务运营商和研究人员从海量的eb数据中得到真正有用的信息呢?有价值的信息来指导他们的管理决策。这是一件非常重要和有意义的事情。
二、爬虫和网页内容挖掘
1.eb挖矿典型分类
在目前的研究中,eb数据挖掘分为三种典型类型:eb内容挖掘(eb intent ining)、eb使用(访问信息)挖掘(eb usage ining)和eb结构挖掘(eb structure ining)。
(1)eb内容挖掘主要是对网站的eb页面内容进行挖掘。目前大部分研究主要集中在如何对网站上的文本和多媒体数据进行分类,以提高数据挖掘的有效性,很少涉及如何采集和分析来自网站的数据。
(2)eb结构挖掘主要是对eb文档的结构进行挖掘,通过一定的算法找出给定的eb文档之间的链接,从而获得更重要的页面进行浏览网站用户提供权威页。
(3)eb使用(访问信息)挖掘主要是挖掘用户访问eb时留在服务器端的访问记录,即用户访问eb站点的访问方式。挖掘相关通过挖掘 eb 日志记录,发现用户访问 eb 页面的模式。目前流行的挖掘方法主要有:路径分析、关联规则和序列模式发现、聚类和分类等。
2.eb挖掘的数据源
eb数据挖掘中有几个具有代表性的数据源:
(1)服务器日志数据。当一个人浏览eb服务器时,服务器端会产生三种日志文件:server lgs、errr lgs和kie lgs。这些日志文件主要用于保存用户访问基本情况,因此成为了EB使用情况(访问信息)挖掘的主要数据源,但是需要注意的是,这些数据是在服务器端生成的,所以存在一定程度的不可访问性,因为这会涉及商业机密。
(2)网络市场数据。这类数据主要是与市场活动相关的信息。网络市场数据是业务数据,是业务相关分析的主要数据来源。
(3)eb页面。目前的eb页面大部分都符合htl标准。htl页面收录文本和多媒体信息,如图片、图像、语言等,因此涉及到文本挖掘和多媒体挖掘。数据挖掘领域,许多研究致力于如何挖掘文本和多媒体信息的算法分析。
(4)网页超链接关系。eb页面之间的超链接关系是一个重要的资源,网站的设计者总是将自己认为重要的页面添加到自己的页面中。
(5)其他数据。除了上面提到的重要数据源之外,还有其他数据,比如用户注册信息等一系列信息。
当然,在实际的eb数据挖掘中,这些数据源并不是孤立使用的,而是几个数据源的综合使用和分析。例如,我们要分析访问电子商务网站 的用户购买商品的路径。分析还需要了解这些客户群的一些基本信息。
3.爬虫和网页内容挖掘
由于上述部分数据源是在服务器端生成的,如日志文件、用户注册信息等,且涉及商业机密问题,数据源获取难度较大。在这里,我们可以利用爬虫(raler)的工作原理作为EB内容挖掘的信息获取和分析工具,得到我们需要的数据源。
(1)爬虫的工作原理。爬虫(raler)是用于分解eb中超文本结构的工具。一个商业的网站eb页面通过超链接的关系存在,构成一个类似一张网,网络爬虫通过网页的链接地址搜索网页,从网站的某个页面(通常是首页)开始,读取网页的内容,找到其他的链接地址在网页中,然后通过这些链接地址找到下一个网页,循环往复,直到这个网站的所有网页都被爬取完。如果把整个互联网看成一个网站,那么网络爬虫可以利用这个原理,爬取互联网上所有的网页。#p#Pagination title#e#
(2)数据获取。我们可以利用上面爬虫的工作原理,从我们需要的信息的起始页开始爬取数据,获取与之相关的大部分eb页面的信息。
(3)数据分析。在搜索链接页面的过程中,往往需要判断信息的属性或者分析信息的价值,因为在eb页面上存储了大量的数据,比如一些广告信息,还有一些数据不是我们需要的,这里我们可以利用基于正则表达式(regular expression)的词法分析技术,对采集接收到的HTML代码进行解析,提取出有效的信息,比如所售产品的类别、规格、价格、数量、运输方式、运输成本、卖家、已购买的用户等。
(4)数据保存。为了进行最终的挖掘工作,我们需要将分析后的有效数据保存在数据库中。一般选择大型数据库管理工具,比如sql server2005。
(5)挖掘。利用数据挖掘技术获取有效信息,验证相关问题模式。
三、结束语
电商网站,无论是b/mode还是/,在网站页面上保存了大量用户在交易过程中产生的信息,如产品规格、价格、陈列、售后销售服务和运输方式等,还包括卖家的个人信息、信用状况以及相应的付款方式、法律条款等,视平台而定。然后,利用爬虫技术,我们可以开发一个有效的工具来获取数据源,用于电子内容挖掘。
当然,在实际研究中,eb内容挖掘是与eb结构挖掘和eb访问信息挖掘一起使用的。它们相互补充,共同挖掘有用的信息。
参考:
[1]梁协雄,雷如欢,曹昌秀:现代数据挖掘技术研究进展。重庆大学学报,2004.3:p.21~26
[2] 吴秀琴:基于eb使用挖掘的个性化服务推荐:河北科技图源,2007.3
这篇文章的链接: