6NovelListUrl小说3GetSiteCharset站点编码站点地址的获得方法是什么?
优采云 发布时间: 2021-07-22 05:05
6NovelListUrl小说3GetSiteCharset站点编码站点地址的获得方法是什么?
Guanguan采集rule 编辑教程第一步,我们先复制一份原来的规则作为模板。比如我今天演示的采集站点就是飞酷小说站点,那么我就以我复制的副本为模板,规则命名为dhabcxml。这主要是为了便于记忆。第二步我们在规则管理财务成本管理系统文件管理系统成本管理项目成本管理行政管理系统工具中运行采集器打开并加载我们刚刚命名为dhabcxml的XML文件第三步正式编写规则。 1RULEID规则号,这个任意2GetSiteName站点名称,这里我们写8E小说3GetSiteCharset站点代码,这里我们打开www8c8ecom找charset,后面的数字就是我们需要的站点代码www8c8ecom我们找到的代码是gb23124GetSiteUrl站点地址这个就不用说了,将其写入5NovelSearchUrl站点的搜索地址。这个地址是根据每个网站程序的不同得到的。但是,有一种通用的方法可以通过抓包来获取您想要的内容。是通过抓包得到的,但是我们怎么知道得到的是我们想要的呢?看看我的操作。首先,我们运行打包工具并选择 IEXPLOREEXE。进程最好只打开一个网站,也就是只打开一个,你要写规则网站保证进程中只有一个IEXPLOREEXE进程。这里我们可以看到提交的地址是booksearchaspx。让我们结合起来。地址是booksearchaspx,提交内容的代码是SearchKeyC1ABBBA8SearchClass1SeaButtonx26SeaButtony10,但是这里对我们有用的是SearchKeyC1ABBBA8SearchClass1。获取的部分将在此处用于 NovelSearchData 搜索提交内容。把这一段改成我们想要的代码就是把这一段C1ABBBA8换成SearchKey,也就是说搜索提交内容的完整代码是SearchKeySearchKeySearchClass1。然后我们测试它是否正确并进行测试。我们得到的内容是正确的。 6 NovelListUrl 站点的最新列表地址。我不会说这个。因为每个站点都不一样,需要自己找FEIKU。 BookShowBookListaspx7NovelList_GetNovelKey 从最新列表中获取小说编号。此规则允许您同时获得这本书。在手动模式下使用按名称获取书名。如果你想使用手动模式,你必须获得书名,否则手动模式将不起作用。使用我们打开 bookshowbooklistaspx 的地址查看源文件。当我们写这个规则时,我们找到了我们想要获取的内容的地方。比如我们打开地址,看到想要获取的内容,第一本小说的名字是莫立迪城,我们在源文件中。寻找莫里昂的传奇奇幻【目录】莫里昂传,第一卷,第八章黑暗的崛起,11月27日,龙之眼连载。我们用来编写规则的代码实际上并不是很多代码。我写规则的原则是节省,也就是说,代码越短越好,除非绝对必要,最好越短越好。没有废话。在这个规则中,我们需要使用网站成为恶魔。我们将修改这一段,其中d代表编号,小说名称已经过测试。更正8NovelUrl小说信息页地址。这很容易。我们只需点击一本小说即可了解。比如我们可以看到小说Book150557Indexhtml。我们可以把里面的150557改成NovelKey。一般来说,就是小说编号BookNovelKeyIndexhtml9NovelErr小说信息页错误的识别标签一般是Book149539Indexhtml中间的数字。随意更改,如Book15055799Indexhtml
我们得到的错误标志是没有找到编号的图书信息。 10 NovelName 获取小说名称。我们只要打开一本小说Book149539Indexhtml查看源码就可以得到小说的名字。我们可以从固定模式开始。比如我们刚刚打开的站点成魔在这本小说中,我们看到他的固定小说名称格式是“站点成魔”,然后我们在源代码中找到“站点成魔”,我们得到的内容是“站点成魔”,我们改成下面“” NovelAuthor 获取小说作者 LagerSort 获取小说分类 SmallSort 获取小说分类 NovelIntro 获取小说简介 NovelKeyword 获取小说主角关键词 NovelDegree 获取写作过程,我就不演示了这些和上面获取小说名称的方法是一样的 所谓的一通百通。有时有些内容您不想使用,因为格式不固定。有些内容只能先获取,再通过过滤功能过滤。过滤器的使用将在后面描述。 11NovelInfo_GetNovelPubKey 获取小说公共目录页 这个地址的地址获取方法同上。我不会解释职位描述的标准模板。职位描述。职位描述。总经理。职位描述。出纳员。职位描述。 12PubIndexUrl。使用k15@目标站的动态地址时,如果不知道对方的动态地址,在此写NovelPubKey。如果你知道动态路径,比如本站没有小说的章节目录的动态地址是Book149539Indexaspx,那么PubIndexUrl就是规则。它是 BookNovelKeyIndexaspx13PubVolumeSplit 拆分子卷。本分册有一些写作要点。需要注意的是,如果拆分子卷的规律性不正确,可能会对后面的章节名称产生很大的影响。这里我们得到了分割部分的代码。根据我的经验,就是找第一子卷和后面的子卷,看看它们有什么共同点。当我们分析htmlbook130149539Listshtm的目录章节中的源代码时,我们可以看到它们有一个共同点。拿这一段来说明对权力的追求。从这里,我们可以看到他的共同点是id "feiku_e_n_d" 让我们把它改成常规格式s,其中s表示匹配任何白色字符,包括空格、制表符、分页符等。 也就是说,无论如何和之间有很多空格可以作为s来代表14PubVolumeName来获取子卷名。要获得准确的子卷名称,上述拆分部分的规律性必须正确。通常,拆分部分和子卷名称是在一起的。上面我们解释了对划分部分使用的权力的追求。如果你留意这部分,你会发现这里有我们要在这一步获取的子卷名称。让我们更改代码。在我们的测试下,我们可以正常获取子卷,但有这些。我们一般在过滤规则中过滤掉。 15PubChapterName 获取章节名称。让我们用一段话来说明强大的驯服方法。对于这种时间、日期和更新字数,我们只是忽略它,因为这些不是我们想要的。我们可以使用这个。为了表明有人问我为什么不必将其附在此处。我告诉你,我们得到的内容就是里面的内容。如果不是你想要的,但是在写规则的时候一定要用到的,我们可以表达出来。只需稍微更改公式即可。好了,我们把上面的那段改一下,改成表达式就可以正常获取内容了。大家看这个规则是不是有点别扭?这是因为中间有一个换行符。我没有更改代码。让我们使用它。 s 表示 N 个换行符。我们现在改的代码了吗?这个会比较好吗?经过测试,获取内容描述规则也是正常的。没问题。 16PubChapter_GetChapterKey 获取章节地址。章节号。此处,此部分中的章节编号位于下面的 PubContentUrl 部分中。
内容页地址一般用来知道目标站的动态地址。如果不知道目标站的动态地址,一般不使用静态地址。所以我们这里需要得到的是章节地址分析。既然这里是章节地址,那我们为什么要呢?还有使用的章节名称。这主要是为了避免获取的章节名称与获取的章节地址不匹配。这里说一下,章节号的写法其实并不麻烦。你只需要稍微改变它。改成这样。让我们测试一下看看。让我们更改它以获取数字。这个获得的编号只能在目标站的动态地址已知的情况下使用。上面的17PubContentUrl章节内容页面地址在获取的章节地址中有说明。它用于目标站动态地址的情况,因为不使用通用静态地址。这里我就拿htmlbook36ASPX来讲解如何使用149539这个小说号。这里我们用NovelKey代替3790336,即PubChapter_GetChapterKey中得到的章节号,我们用ChapterKey来代替组合,即htmlbookNovelKeyChapterKeyASPX。这是我们的动态章节地址。记住,前提是要知道对方的动态地址。如果不知道对方的动态地址,那么我们这里在PubContentUrl章节内容页面地址中写的是ChapterKey18PubContentText来获取章节内容。获取方式与章节名称相同。这个就不解释了。现在我们解释过滤的用法。这很容易。什么是过滤,就是去掉你不想要的内容。一般使用过滤的几个地方都是介绍章节。卷名和获取的小说章节内容的名称,但是章节内容,有章节名和卷名的替换功能。章节名和卷名没有替换规则。比如我们获取到的volume叫做文本www8c8ecom,但是当我们获取volume的时候只想获取文本的两个词,那么我们这里就使用了filter。过滤器的格式就是过滤器的内容。每个过滤器的内容用于分隔介绍。过滤器与子卷名称相同。例如,我们获取作者姓名。当时获取的内容中,有一段多余的内容。本书作者随风聚散。因为他有的有,有的没有,所以我们不需要先直接用书的作者来获取想要的内容。从规则来看,我们得到的内容是在这一段中,我们要在这一段中保留的内容是随风聚散。让我们去把它添加到过滤规则中。这是固定的,所以直接添加它。这是我们要改变的。让我们改变它。在常规格式中,就是这样。让我们添加过滤器内容。现在说一下下一章内容的替换。章节内容的替换规则为每行替换一次。格式如下。需要替换的内容。更换结果。这意味着过滤。这意味着更换。如果有他使用的图片我们该怎么办?这里我们使用替换来处理其他替换。类似的替换仅在章节内容中使用。这仅适用于章节内容。三个人问我为什么采集为什么某个站总是空章?这个可能是空章的原因可能是目标站刚重启网站你的采集IP被封了等等 这里我想说明一下有空章 因为图章的操作流程采集器的采集内容是先检查你的采集章节是否是图片章节。如果你的PubContentImages章节内容中提取的图片规律不正确,那么你还没有获取到图片章节内容。会检查你的采集文字内容PubContentText 获取章节内容的正则匹配。如果从PubContentImages章节内容中提取的图片与PubContentText获取的章节内容不匹配,那么就会出现我们上面提到的章节空的原因。规则写好后,我们来测试一下规则是否可以正常获取到我们想要获取的内容。经测试,我们编写的规则可以正常得到思路。
第一步是将原创规则复制为模板。比如我今天演示的采集站点是一个小说站点,叫feiku,那么我把我复制的模板规则命名为dhabcxml,这主要是为了方便记忆。第二步,我们在采集器中运行规则管理工具,打开并加载我们刚刚命名为dhabcxml的XML文件。第三步开始正式编写规则1RULEID规则号,这个任意2GetSiteName站点名称,这里我们编写8E小说3GetSiteCharset站点代码。这里我们打开 www8c8ecom 查找字符集编号。后面是我们需要的站点代码www8c8ecom。我们找到的代码是 gb23124GetSiteUrl 站点地址。不用说,把它写进5NovelSearchUrl站点搜索地址。每次网站程序不同时必须获取这个地址,但是有一个通用的方法可以通过抓包来获取你想要的内容。虽然是抓包得到的,但是你怎么知道我们想要的就是我们想要的呢?看我的操作 首先我们运行打包工具,选择IEXPLOREEXE进程。最好只开一个网站,也就是只开你要写规则的网站,保证进程中只有一个IEXPLOREEXE进程。在这里我们可以看到提交的地址是booksearchaspx。让我们结合起来。地址是booksearchaspx,提交内容的代码是SearchKeyC1ABBBA8SearchClass1SeaButtonx26SeaButtony10。但对我们来说,它是 SearchKeyC1ABBBA8SearchClass1。此处获取的部分将用于NovelSearchData 搜索提交内容。把这一段改成我们想要的 必要的代码就是把C1ABBBA8的这一段换成SearchKey,也就是说搜索提交的内容的完整代码是SearchKeySearchKeySearchClass1。然后我们测试它是否正确。经过测试,我们得到的内容是正确的。 6 NovelListUrl 站点的最新列表地址。因为这些我就不说了。每个站点都不一样,需要自己找FEIKU 是BookShowBookListaspx7NovelList_GetNovelKey 从最新列表中获取小说编号。该规则可用于同时获取书名。它用于手动模式。如果要使用手动模式,必须获取书名,否则手动模式将不可用。我们打开bookshowbooklistaspx的地址查看我们写的源文件时使用这个规则,找到你要获取的内容的地方。比如我们打开地址看到想要获取的内容,第一本小说的名字是李迪程沫,我们在源文件中找到了莫兰特传奇魔法。 【目录】莫伦特传,第一卷,第八章,黑暗的崛起,11月27日,龙眼连载。我们用来编写规则的代码实际上并不是很多代码。我写规则的原则是能省就省,也就是代码越短越好,除非万不得已,越短越好。没有废话。在这个规则中,我们需要使用网站成为恶魔。我们将更改这一段,其中 d 表示数字表示小说名称已经过测试并且是正确的。 8 NovelUrl 小说信息页地址,这个很简单,我们随便点一个小说就知道了,比如我们在书Book150557Indexhtml中看到的,我们把里面的150557改成NovelKey。一般是指小说编号BookNovelKeyIndexhtml9NovelErr小说信息页错误识别标志。这个一般是Book149539Indexhtml中间的那个。随意更改数字,例如Book15055799Indexhtml,我们得到
错误标志是没有找到编号的图书信息。 10NovelName获取小说名,我们只要打开小说Book149539Indexhtml查看源码即可获取小说名。这个我们可以从固定模式开始,比如我们刚刚打开的小说。看到他固定的小说名字格式是“Site into a Devil”,那么我们在源码中找到了“Site into a Devil”。我们得到的内容是“Site into a Devil”。我们将“”下的小说作者更改为小说作者。 LagerSort 获取小说类别 SmallSort 获取小说类别 NovelIntro 获取小说简介 NovelKeyword 获取小说主角关键词 NovelDegree 获取写作过程 NovelCover 获取小说封面 这些,我就不演示了,这些和上面的获取小说的方法是一样的名字,所以就是所谓的百通一通,这里是这里得到的一些内容,有些是因为格式不固定所以不想用的。有些内容只能先获取,再通过过滤功能进行过滤。后面说11NovelInfo_GetNovelPubKey获取小说公共目录页面地址的地址。获取方法同上,12PubIndexUrl公共目录页面地址我就不解释了。我将解释这个的用法。这个一般在知道采集目标站的动态地址时使用。如果不知道对方的动态地址。在此写入NovelPubKey。如果你知道动态路径,比如本站没有小说的章节目录的动态地址是Book149539Indexaspx,那么PubIndexUrl的规则是BookNovelKeyIndexaspx13PubVolumeSplit拆分卷,这个拆分卷有地方写,你需要要注意是否拆分音量。规律是不对的。所以很可能会对后面的章节名产生很大的影响。这里我们得到了分割部分的代码。根据我的经验,找到第一个子卷和下面的子卷来看看它们的共同点我们分析了htmlbook130149539Listshtm的目录章节中的源代码,可以看出它们有一个共同点。拿这一段来说明对权力的追求。从这里我们可以看出他的共同点是id“feiku_e_n_d”。让我们改变它,将其更改为常规规则。 s格式中,s表示匹配任意白色字符,包括空格、制表符、分页符等,也就是说,无论and之间有多少个空格,都可以用s表示14PubVolumeName来获取音量名称并希望获得准确的音量。该名称必须在上述部分中。规律一定是正确的。通常,节和子卷名称在同一页面上。我们在章节中解释了对权力的追求。如果你关注这个部分,你会在里面找到我。让我们更改代码以获取此步骤中的子卷名称。我们测试并正常获取子卷。但是如果有这些,我们通常在过滤规则中过滤。 15PubChapterName 获取章节名称。让我们用一段话来说明强大的驯服方法。对于这种带有时间和日期的更新字数,我们只是忽略它,因为这些不是我们想要获取的内容。这可以用来说明有人问我为什么把它附在这里没用。让我告诉你我们得到了什么。内容就是里面的内容。如果它不是你想要的,但在编写规则时必须使用它。我们可以稍微改变一下表达方式。好,我们把上面的那段改一下,改成表达式,就可以正常获取内容了。小伙伴们是不是觉得这个规则有点别扭?这是因为中间有一个换行符。我没有更改代码。我们用 s 来表示 N 个换行符。修改后的代码现在更好了吗?测试后也是正常的。内容描述规则没有问题 16PubChapter_GetChapterKey 获取章节地址 章节号 这里是本节章节号的描述,用于下面的PubContentUrl章节内容页面地址
一般知道目标站的动态地址。一般不使用静态地址。如果你不知道目标站的动态地址,那么我们这里需要得到的是章节地址分析。既然这是为了获取章节地址,那为什么还要使用章节名称呢?这样做的主要原因是为了避免获取的章节名称与获取的章节地址不匹配。说到这里,下章号的写法其实并不麻烦。只需要稍微改动一下,改成这个就行了。让我们测试一下。你可以看到。像这样改变它以获取数字。获取的编号只有在知道目标站的动态地址时才能使用。上面的17PubContentUrl章节内容页地址有获取到的章节地址。这是要知道目标站的动态地址。使用地址是因为这里不使用通用静态地址。我用htmlbook36ASPX来说明如何使用149539,这是小说编号。这里我们使用NovelKey代替3790336,即PubChapter_GetChapterKey中获取的章节号。让我们用 ChapterKey 替换它。组合是 htmlbookNovelKeyChapterKeyASPX。这是我们的动态章节地址。记住,前提是要知道对方的动态地址。如果不知道对方的动态地址,那么我们这里在PubContentUrl章节内容页面地址中写的是ChapterKey18PubContentText来获取章节内容。这种获取章节内容的方法与获取章节名称的方法相同,不做说明。现在我们解释过滤的用法。这很容易。什么是过滤,就是去掉你不想要的内容。一般使用过滤的几个地方是介绍、章节名、卷名、获取小说章节的内容,但是章节内容有替换功能。简介、章节名称和子卷名称。这几个暂时没有更换规则。比如我们获取的子卷叫做正文www8c8ecom,但是我们在获取子卷的时候只想获取正文,这里就用到了这两个词。过滤器格式是过滤器的内容。每个过滤器的内容用于分隔介绍。过滤器与子卷名称相同。比如我们获取作者姓名时获取的内容。有一个额外的内容。书作者云集,随风而去。因为他,有的有,有的没有,所以我们不需要先用书的作者来获取内容。从规则中,我们得到的内容是随风聚散的。在本段中,我们要在本段中保留的内容是随风聚散。让我们去把它添加到过滤规则中。因为是固定的,所以我们可以直接添加。这对我们来说是一个改变。让我们更改它并将其更改为常规格式。就是这样。让我们添加过滤内容。现在说一下下一章内容的替换。章节内容的替换规则为每行替换一次。格式如下。需要替换的内容。替换结果。这意味着过滤。这意味着更换。比如飞酷里有一个词。我们这里用的图片应该怎么处理,我们用replacement来处理其他的replacement。类似替换内容替换只对章节内容有用。这是专用于章节内容。有人问我为什么采集某站为什么老是出现空章?这可能就是出现空章的原因。这可能是目标站刚重启网站你的采集IP被屏蔽了等等,这里我想说明一下,空章是图片章节造成的。 采集器的采集内容操作流程是先检查你的采集章节是否为图片章节。如果你的PubContentImages章节内容中提取的图片规律不正确,如果你没有得到图片章节内容,你会检查你的采集文字内容PubContentText获取章节内容的规律匹配。如果从 PubContentImages 章节内容中提取的图片与获取章节内容的 PubContentText 不匹配,那么就会出现我们上面所说的空章节的原因。嗯,规则已经写好了。测试规则是否可以正常获取到想要的内容。测试表明我们编写的规则可以正常获取到想要的内容