搜索引擎优化实训(搜索引擎开发用Lucene开发网络爬虫程序-上海怡健医学)

优采云 发布时间: 2022-02-07 00:20

  搜索引擎优化实训(搜索引擎开发用Lucene开发网络爬虫程序-上海怡健医学)

  [color=blue]一、歌曲数据爬虫[/color]

  [颜色=紫色]

  本项目是视频搜索引擎项目的爬虫程序研究案例。HTMLParser作为数据源,用于开发网络爬虫程序,抓取歌曲数据资源,抓取超过23万首歌曲数据,近2万张歌手数据和头像图片,并保存到本地硬盘。[/颜色]

  [color=blue]二、模仿大型百万级视频搜索引擎项目[/color]

  [color=violet] 本项目分为视频数据采集和搜索引擎两部分。开发周期1个月,知识点为:J2SE基础+JDBC+HTMLParser+Lucene+Swing+JSP+Servlet。

  视频数据采集

  作为数据源,使用HTMLParser开发网络爬虫程序,抓取用户数据/视频/专辑数据并写入数据库,编译后的爬虫程序可以抓取数百万视频数据资源。

  2. 搜索引擎开发

  用Lucene开发视频搜索引擎,先用Paoding中文分词生成视频数据索引库,然后用Swing和JSP+Servlet开发桌面版和WEB版视频搜索引擎。

  项目*敏*感*词*如下:[/color]

  [color=blue]三、简单的OA项目[/color]

  [颜色=紫色]

  本项目开发时间短,只规划了简单的OA功能。目的是练习Struts2+Spring+Hibernate+EHCache+URLRewrite+JQuery的综合应用。

  特点包括:

  部门管理。员工管理。权限管理(练习 Struts2 *敏*感*词*应用程序)。分享文件(练习Struts2文件上传)留言板(练习Struts2结合jquery实现ajax)。所有页面都需要国际化和 OGNL 表达式开发。[/颜色]

  [color=blue]四、仿土豆()大WEB2.0视频网站项目[/color][color=violet]

  整个项目分为两个部分:土豆网前台和网站后台管理系统。

  首先,将首个视频搜索引擎项目的百万级视频/专辑/用户数据导入土豆网数据库,在百万级大数据量的情况下对数据库进行优化。然后分成八个团队协同开发,周期为一个半月。

  土豆网前台

  首先从土豆网下载其HTML、CSS、Javascript、图片等相关文件到本地硬盘。

  开发土豆首页、豆列表、排名、视频播放页面、用户注册/登录、用户个人主页、日志管理、视频上传/管理、豆列表管理、标签管理、好友管理、短信等功能。

  技术工具:

  a) 使用 Trufun Kant for Java 的 Eclipse 插件来设计 UML 用例图和类图。

  b) 使用 Apache+Tomcat 作为 Web 服务器。

  c) 使用 Struts2+Spring+Hibernate+EHCache+URLRewrite 进行服务器端实现。

  d) 使用 JQuery 进行 Ajax 实现。

  e) 使用 Flex/Flash AS3 开发 FLV 视频播放器。

  f) 使用 mencoder 将服务器端视频格式转码为 FLV。

  g) 使用 FFMPEG 作为视频的截图。

  h) 数据库进行了索引优化,使用EHCache进行查询和缓存,前端频道的首页始终由管理后台生成,生成纯HTML静态页面。

  2. 网站后台管理系统

  网站管理后台主要负责注册用户、视频、豆单等的管理(添加/删除/检查/修改/审核/推荐),并生成注册用户、PV流量的图形报表统计、视频播放次数等数据,并生成网站前台纯静态HTML页面等功能。

  技术工具:

  a) 使用 Apache+Tomcat 作为 Web 服务器。

  b) Spring+Hibernate+EHCache 作为服务器端实现。

  c) 纯Flex开发管理后台界面,Flex Chart组件开发统计报表。

  d) 使用 Blazeds 实现 Flex 与 Spring 的交互。

  e) 使用JAVA反射机制(java.lang.reflect)开发HTML页面生成的模板引擎。[/颜色]

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线