事业单位招聘网搭建思路和seo方法
优采云 发布时间: 2020-08-13 07:48页面开发似乎冗长历时,但比较简单,主要是考虑到内链优化,我给省份数组、城市数组加了超链接。
发布时间数组做了处理,比目标站点提早三天,新生成的发布日期若果是双休日,就再向前推移到星期五。目标站点的发布时间只精确到天,我又随机降低了时分秒。并且下午发布的占40%,下午发布的占60%,不同小时段的作者也不同,以此降低自动发布的真实性。
正文急聘内容只能照搬,没法改写,但可以新增摘要来降低页面原创度。所以我在正文后面加了摘要的数组,用textrank4zh提取摘要,长度3句话。
flask开发
flask主要就是功能实现,没哪些非常的。比如模板内判定搜索结果数,如果没有搜索结果,就在内添加一行代码,告诉爬虫不要收录该页面。
比如flask默认难以直接访问文件,但递交站点地图时须要递交sitemap文件,可以添加以下代码。
@app.route('/')
def info(path):
base_dir = os.path.dirname(__file__)
resp = make_response(open(os.path.join(base_dir, path)).read())
resp.headers["Content-type"]="text/plain;charset=UTF-8"
return resp
唯一费时的是分页疗效的实现,可能由于我是伪码农吧,好在最后还是实现了。
站点布署
推荐用Linux,但我更熟悉Windows,很多人说的这个坑那种坑,在我这也只是冗长,不算坑。Linux布署会容易好多,没那么折腾。部署Python站点,用的IIS+wsgi,具体步骤在之前博文写过。
elasticsearch使用
整个技术栈最陌生的就是elasticsearch,严格来说可能不属于数据库,但我觉得储存数据的都可以当成数据库使用。创建索引、写入数据,都没啥难度,一方面是python-elasticsearch真的很容易上手,另一方面是完全依照教程按需操作。
难点在于查询,按关键词查询时默认是先英文动词,然后只要每位词搜到资源就会在结果页显示,但这精确度实在很低。后来改为必须所有词都存在,才出现在结果页。
举例来说,搜任意关键词,原先只要带了“招聘”,搜索结果数就是数据库全部数据量。现在是必须其他词也能搜到结果才行,所以好多词的搜索结果都为空了。
seo思路链接递交手动推送
百度、360搜索、神马搜索,支持手动推送。从站长平台获取一段JS代码,添加到所有页面,有用户访问时才会加载JS,实现手动递交到搜索引擎。
因为门槛低,注定数据量很大,所以递交后常常许久都没处理。好在百度还有其他递交方法。
主动推送
通过插口递交url,使用Python实现很简单,在页面生成时就手动递交。
sitemap
整理“事业单位急聘”相关长尾词,在elasticsearch搜索,有搜索结果的将搜索结果页网址保存到sitemap。
目前整理了8000多个网址,保存在sitemap.txt,已经递交百度和360搜索,但目前还没有处理。
外链发布
很多网站提供站内搜索,并且结果页源码收录搜索的关键词,如果页面源码收录的搜索词是url,并且搜索结果页被百度收录,那么这就是一条外链,虽然质量不高。
目前的方式是,现在豆瓣、新浪博客,这类可以发外链的地方发文章,再把文章地址拿去刷外链,增加外链页面的收录速率。
搜索结果页并不一定会被爬取,所以每晚须要刷两遍以上,目前测试疗效挺好,即使是大号发贴,一般第二天或则隔日收录。
最简单省事的外链,还是交换高质量首页友链。当然,打铁还需自身硬,后面再考虑。
测试结果
网站在2019年9月底上线,期间有代码改动,甚至采集爬虫由于目标站点临时难以访问,导致爬虫也死掉了。正好赶上春节休假,挂掉了好几天才发觉。
每天工作日更新,每次更新200多条信息,截止发此文,运行时间不足一个月,收录30条,百度权重1,期待后续。