搜索引擎优化实训(搜索引擎开发用Lucene开发网络爬虫程序-上海怡健医学)
优采云 发布时间: 2022-02-07 00:20搜索引擎优化实训(搜索引擎开发用Lucene开发网络爬虫程序-上海怡健医学)
[color=blue]一、歌曲数据爬虫[/color]
[颜色=紫色]
本项目是视频搜索引擎项目的爬虫程序研究案例。HTMLParser作为数据源,用于开发网络爬虫程序,抓取歌曲数据资源,抓取超过23万首歌曲数据,近2万张歌手数据和头像图片,并保存到本地硬盘。[/颜色]
[color=blue]二、模仿大型百万级视频搜索引擎项目[/color]
[color=violet] 本项目分为视频数据采集和搜索引擎两部分。开发周期1个月,知识点为:J2SE基础+JDBC+HTMLParser+Lucene+Swing+JSP+Servlet。
视频数据采集
作为数据源,使用HTMLParser开发网络爬虫程序,抓取用户数据/视频/专辑数据并写入数据库,编译后的爬虫程序可以抓取数百万视频数据资源。
2. 搜索引擎开发
用Lucene开发视频搜索引擎,先用Paoding中文分词生成视频数据索引库,然后用Swing和JSP+Servlet开发桌面版和WEB版视频搜索引擎。
项目*敏*感*词*如下:[/color]
[color=blue]三、简单的OA项目[/color]
[颜色=紫色]
本项目开发时间短,只规划了简单的OA功能。目的是练习Struts2+Spring+Hibernate+EHCache+URLRewrite+JQuery的综合应用。
特点包括:
部门管理。员工管理。权限管理(练习 Struts2 *敏*感*词*应用程序)。分享文件(练习Struts2文件上传)留言板(练习Struts2结合jquery实现ajax)。所有页面都需要国际化和 OGNL 表达式开发。[/颜色]
[color=blue]四、仿土豆()大WEB2.0视频网站项目[/color][color=violet]
整个项目分为两个部分:土豆网前台和网站后台管理系统。
首先,将首个视频搜索引擎项目的百万级视频/专辑/用户数据导入土豆网数据库,在百万级大数据量的情况下对数据库进行优化。然后分成八个团队协同开发,周期为一个半月。
土豆网前台
首先从土豆网下载其HTML、CSS、Javascript、图片等相关文件到本地硬盘。
开发土豆首页、豆列表、排名、视频播放页面、用户注册/登录、用户个人主页、日志管理、视频上传/管理、豆列表管理、标签管理、好友管理、短信等功能。
技术工具:
a) 使用 Trufun Kant for Java 的 Eclipse 插件来设计 UML 用例图和类图。
b) 使用 Apache+Tomcat 作为 Web 服务器。
c) 使用 Struts2+Spring+Hibernate+EHCache+URLRewrite 进行服务器端实现。
d) 使用 JQuery 进行 Ajax 实现。
e) 使用 Flex/Flash AS3 开发 FLV 视频播放器。
f) 使用 mencoder 将服务器端视频格式转码为 FLV。
g) 使用 FFMPEG 作为视频的截图。
h) 数据库进行了索引优化,使用EHCache进行查询和缓存,前端频道的首页始终由管理后台生成,生成纯HTML静态页面。
2. 网站后台管理系统
网站管理后台主要负责注册用户、视频、豆单等的管理(添加/删除/检查/修改/审核/推荐),并生成注册用户、PV流量的图形报表统计、视频播放次数等数据,并生成网站前台纯静态HTML页面等功能。
技术工具:
a) 使用 Apache+Tomcat 作为 Web 服务器。
b) Spring+Hibernate+EHCache 作为服务器端实现。
c) 纯Flex开发管理后台界面,Flex Chart组件开发统计报表。
d) 使用 Blazeds 实现 Flex 与 Spring 的交互。
e) 使用JAVA反射机制(java.lang.reflect)开发HTML页面生成的模板引擎。[/颜色]