技术文章:小说站源码php采集,关于PHP批量采集----采集小说站有感
优采云 发布时间: 2022-12-17 09:15技术文章:小说站源码php采集,关于PHP批量采集----采集小说站有感
概况:有一段时间一直在帮周同学写小说采集。一开始是直接从其他网站页面写regex到采集,后来慢慢转到别人提供的API 采集。
环境:CENTOS+NGINX+PHP5.2.17。基于JIEQI新颖的管理系统。
当直接采集其他网站页面时,主要变化是JIEQI自带的采集系统。我印象比较深刻。增加了判断章节顺序的功能,也修改了其他的“BUG”(是的,具体还有什么,现在差点忘了,搞了好久)。这次我对 采集 API 印象更深刻。
背景:采集数十个小说站API(目前有5个,预计40、50个)
设计:共享一个展示页面,逻辑分开处理。批量 采集 可用,单个 采集 可用。
最后一张图:
其中有两个实体是我自己根据自己需要的信息定义的。之所以规定这个实体(或接口),主要是因为每个API给的信息不一样,必须要统一才可以操作。
单个 采集 与多个 采集
单个采集比较简单,随便写什么,问题不大。
至于很多批文章采集,这次写了四个版本。
V1:所有操作都写在同一个PHP进程中。
优点:逻辑简单,易于实现。
缺点:PHP进程容易庞大,容易挂掉。
问题:最多只能设置5篇文章,看不到采集的进程。
V2:分离所有操作,使用file_get_contents遍历访问。
优点:类似于“异步”采集,所有操作都分到每个进程中,单个进程不易挂。高效率。
缺点:采集进程会生成N多个PHP进程,NGINX会出现504等错误。
问题:如前所述,如果一个作品的章节很多,短时间内(0.1S以内)会产生上百个HTTP请求,NGINX就会出问题,服务器会承受不住.
改进:在PHP中加入sleep,使得NGINX不稳定,资源消耗比较大。有时 file_get_contents 会出错。
V3:结合V1和V2,使用JS进行时序。
思路:使用iframe定时刷新采集的每个页面(V2),根据页面返回的信息进行下一步操作。即:循环设置iframe的SRC。
优点:分散服务器采集时间集中压力,章节有序存储。
缺点:采集的间隔时间不好设置。即使是根据iframe的返回值判断,也要多加一些定时(使用父页面定时刷新,定时抓取iframe的数据判断)。
问题:setTimeout存在各种问题,会出现不可控的情况。因为JS也是单线程的。setInertval 也是如此。
V4:结合前三者,主要改进是在V3的基础上,再次分离。
思路:不再循环设置iframe的src,而是创建N多个iframe。
优点:可以很方便地控制时间(即:多少S间隔打开一个新的iframe)。
缺点:如果前面几章运行比较慢(即:比如第一章卡住,采集的URL在2S内还没有连接上。而第二章0.5S后,已经已经开始了,而且连上了,那么第二章会先于第一章入库),这就涉及到一个章节顺序的问题。还有,和上面一样,第一章已经连上了,但是运行速度极慢,2S就可以搞定;而第二章,话少(或者其他原因),1S就可以搞定,问题同上。
问题:如上所述,还有一个问题需要注意。因为有些字段,表格必须在采集完成后更新。SO采用一种方法:子页面JS,调用父页面JS的方法,在父页面设置一个iframe(同ajax或script),访问修改后作品的url。
实用:果然到了实用的时候,缺点带来的问题就已经出现了。
修改:将章节排序字段与章节信息放在同一个数组中,并同步更新。这样,即使先存储第二章,它的顺序仍然是2。存储在第一章之后,它的顺序是1。显示时,第一章仍然在前面。问题解决了。
各个采集站的API和模板是分开的。这样做的好处是界面统一,别人随便玩。这件事情我也被周同学叮嘱过好几次,但是想想,确实,我刚开始做的时候,没有想的那么仔细,做的也不够好。看来我的经验还是不够。
当然,对于采集,还是推荐使用.net来制作EXE。我跟周同学提过,他觉得比较麻烦,也懒得从头再来。现在这个版本已经够用了,满足要求。还有优化空间继续优化。
这个介绍不错,期待大牛们指点。
技术文章:对于于seo优化的软文怎么写呢
1.如何写软文做SEO优化
人生是一场大梦,人世几回凉秋夜,枫叶已在轩上歌唱,眉梢鬓角贱,酒常愁,客少,月圆。明,云阻中秋。谁来分享寂寞的光?
二、如何写出高质量的SEO文章
文章标题应该是个人的、原创的并且最好是独一无二的。百度会赚取收入。哎呀。
3、seo软文应该怎么写?
SEO软文有两种:原创和伪原创,高质量的伪原创也默认为原创。一般seo写的软文是伪原创,只有高质量的伪原创很容易被收录,根据经验,百度在收录软文,伪原创文章一手二手转发也很方便收录。所以才有一句话:快速抄袭等于原创,时间就是价值。不过,最好是有创意,有新颖的内容。不能一味的快速复制,一定要注意标题。文章的标题一定要很吸引人,外观也要做到,就算文章的内容是垃圾,摆个架子。
4、seo优化软文怎么写?
所谓SEO优化软文就是关注一个关键词。说白了就是软文打包的内容体现在关键词里面,不然就不叫软文,那叫广告,你把要打包的内容写在里文章以简洁明了的词组或词组形式出现,仅此而已。
5、如何写好SEO文案的内容
如何写好SEO文案内容
网站内容的文章必须是真实的,关于销售信息、新闻资讯、技术教程等,让用户对网站的内容感兴趣。以下是我整理的SEO文案相关知识内容,希望对大家有所帮助!
1. 文章 的标题。
关键词 出现在 文章 标题中,比它出现在页面正文中的其他地方更重要。因为访问者认为 文章 标题比其他文本更重要,搜索引擎也是如此。虽然所有 文章 标题都超过了周围的文本,但
标签比较小的 文章 标题更强大。关键词 出现在标题中,是网页上最显眼的地方之一。网站 RSS 和 Atom 等订阅源使用标题标签作为它们发送的内容的标题。
2.正文开头。
关键词出现在页面顶部比出现在后面更好。由于大多数网页在前几个 关键词 中概述了他们的中心思想,因此搜索引擎在确定相关性时会更重视这些词,而 关键词 最突出的位置是在页面的开头文本的标题标签。
3.强调文字。
粗体字和斜体字会在访问者中脱颖而出,因此搜索引擎会给予他们一定程度的考虑。
4.链接。
这是这组概念中比较古怪的部分,因为虽然锚文本在链接标签中非常重要,但它的重要性在于为被链接的页面提供一些可信度,而不是链接出现的页面。网页上一些最重要的文本是其他网页用作指向您网站的链接的文本。
来自其他站点的链接远比来自您自己站点内的链接更可信,但仔细选择锚文本以反映 关键词 也很有帮助,即使对于您自己的链接也是如此,因为它们确实具有一定的权重。
五、其他。
在页面上任何地方找到的 关键词 都有一定的价值,但比上面列出的地方更有效。这包括段落标签和许多其他标签,但搜索引擎不会给予它们更高的权重。关键字的使用对于页面内容至关重要,有助于 网站 搜索排名靠前。网站内容的文章必须是真实的,关于销售信息、新闻资讯、技术教程等,让用户对网站的内容感兴趣。
确定好关键词后,我们就要为关键词填写内容。否则,一个空的.page 将影响网站 的权限。另*敏*感*词*绕关键词做文案。最重要的是要有最好的内容,降低网站的跳出率。否则,即使关键词排名很好,也没有用。因为内容质量很低。因此,所写的内容必须能够吸引您的观众。一旦完成,下一步就是买家访客的转化。为此,内容的格式、内容的说服力和适当的长度都是重要的细节。主要是要考虑用户阅读的方便性。
关键字布局一般在文章,如网页标题、描述、标题、正文内容、导航栏和超链接。所有这些都必须在关键字密度设置内完成,否则搜索引擎将网站垃圾网站它。如果这对您来说听起来很多,请找一位专业的 SEO 撰稿人。他们提供 网站 内容创建和维护等服务。他们还提供关键字研究和页面优化细节,如标题、摘要、元标记等。
;
6、SEO文案的优化技巧有哪些?
1、简化代码结构,更有利于搜索引擎分析和抓取有用的内容:页面尽量使用DIV+CSS。当然,在表格显示方式下使用table要比div方便很多;js和css全部使用外链,图片使用css sprites,减少请求次数。看下面同样的内容,比较div和talbe布局的代码。很明显,使用 div 要容易得多。
2.重要内容优先加载(第一个链接最好是网站main关键词,无刻意要求),可以用css处理,索引文章文章的长度为也是有限的,最重要的内容必须首先展示给蜘蛛。您可以通过查看一些比较大的网页快照来验证这一点。
3、H1标签在每个页面只能出现一次,H2标签可以出现多次:H1的权重很高,一般认为仅次于title。一般信息详情页的标题和商品详情页的标题都放在H1中。
4.图片必须加alt属性,title属性可选:蜘蛛不知道图片上的内容,只能通过alt属性判断。如果是产品列表页,如果所有的产品都加上alt和title,很容易造成堆叠关键词,所以我一般只加alt属性。
5.图片大小声明:如果不定义图片大小,需要重新渲染页面,会影响加载速度。
6、可以根据需要在链接中添加title属性和noflow值;对于非特定链接,必须将链接地址写入 herf 属性。有的前端开发者为了省事,直接用一个div添加点击事件作为链接,从视觉上和使用上来说确实是达到了链接效果,但是做过SEO优化的都知道蜘蛛目前支持的很差对于js,基本无法读取里面的链接地址。所以绝对不能使用点击事件,尤其是一些重要的导航链接。
7、尽量不要把页面内容做成flash、图片、视频。蜘蛛抓不到这些东西。即使有必要,也应该生成相应的静态页面。有很多企业网站,看着很眼花缭乱,全站flash,老板长得酷,SEO优化人员会抓狂,全站没有链接。
8、除首页外的其他页面最好加上面包屑导航,导航结构一定要清晰。
9、做好404页面,一般添加首页链接和错误提示,测试返回状态码为404: 1、用户友好,可以留住用户,不直接关闭页面;2.蜘蛛友好,可以返回抓取其他页面。
10.网站的结构是一棵扁平树。目录结构不宜太深。每个页面与主页的距离不应超过 3 次点击。太深不利于搜索引擎抓取。