最热门:我Python采集了新榜热门内容,原来这就是别人能成为自媒体大佬的秘密!
优采云 发布时间: 2022-11-26 12:16最热门:我Python采集了新榜热门内容,原来这就是别人能成为自媒体大佬的秘密!
什么值得写
这个功能也很强大。比如你想写科技领域的内容,这个功能会为你推荐该类型的最新热门文章。
这里只推荐三个功能,其他功能我就不写篇幅介绍了。大家可以自己探索一下,直接进入今天的话题,爬取哪些值得写的推荐热榜文章,学习一下其他搞自媒体的人是怎么写博客的。
采集
目标
网站:新列表编辑器
工具使用
开发工具:pycharm 开发环境:python3.7、Windows10 工具包:requests、execjs
项目思路分析
虽然这个网页放在今天还是比较实用的,以后可以在当前网页上选择合适的内容来写,但是有什么问题呢?网页上的数据都是加密的,辣条真是晚上睡不着。
首先,爬虫常规操作找到目标数据的接口位置,打开抓包工具查看数据的加载方式,打开抓包工具瞬间数据没了
" />
当前网页应该已经通过开发者工具测试过,将抓包工具作为单独的页面打开
单独打开是没有问题的。查找文件接口数据,确定请求的url地址
数据的接口
https://edit.newrank.cn/xdnphb/editor/articleMaterial/searchArticleMaterial
当前接口的请求方式为post,post请求表示需要传输数据
该项目可以清楚地看到加载的数据的格式、日期和类型。数据页翻过日期。Nonece 和 xyz 是加密数据。简单判断一下,nonece和xyz应该是md5加密的。首先找到nonece和xyz的加密位置,可以使用全局搜索或者xhr断点调试的方法,只要能找到数据的加密位置即可,拉条这里直接使用xhr断点找到数据的发送位置
通过抓包工具右侧的调用栈找到后续的执行流程。点击一一查看,找出发送的数据是从哪里产生的。传输的数据data是h。现在我们只需要找到h的生成位置即可。h 源自 u。来的u是c函数生成的,nonece,zyz是c函数生成的
" />
在location数据上打断点,查看数据的加载规律,nonece是u方法生成的9个参数中的随机值
xyz加密后的数据是o的值加上&nonece和nonece,o的参数是url加上a*敏*感*词*ey加上item的值
"/xdnphb/editor/articleMaterial/searchArticleMaterial?A*敏*感*词*ey=joker&item={"type":"lakh","period":"1#2021-09-18","order":"2","extra":"全部","ranklist_id":"","weixin_id":"","start_time":"2021-09-18"}&nonce=6a65cad87"
xyz里有很多加密代码,这是什么狗屁东西
直接搭建环境。不要硬编码js代码。把js代码拷贝到本地,先把加密函数带过来,把整个t函数拿过来本地,自己跑试试看
大功告成,数据加密方式和加密规则都解决了。现在使用Python集成,向目标URL发送请求,获取数据并保存。js源码大家可以自己去推,只要t函数就可以了。
显示结果
外媒:如何让搜索引擎爱上我们的网站
有句谚语:酒的香气不怕巷子深,但是我们做网站的时候不太喜欢这句话,网站建成后最怕的就是没人知道,更别说把它放在小巷深处了。
我们创建网站的目的是什么?当然,通过我们的网站让其他人了解我们的公司和产品。如何让网站更好地被别人发现?我们可以通过投放广告或搜索引擎搜索来做到这一点。广告很简单,但成本也相对较高。既然是主动推动,观众未必是我们的准客户。因此,搜索引擎成为我们的主要考虑因素。
那么搜索引擎如何找到我们呢?这就不得不提我们的主题:搜索引擎优化(SEO),这个概念已经不是什么新鲜事了,百度有大量的教程和培训机构,但仔细一看发现,大家似乎都在谈论怎么做内容,怎么做外部链接,有人说内容为王,外部链接为王, 有人说站组是小站的出路,也有人说聚合页面营销是优化的最佳方式。
然而,很少有人系统地描述应该在哪个阶段使用这些方法。这导致很多站长看到后,纷纷在自己的网站上设置方法,然后开始每天盯着排名,嘿嘿,怎么还没涨呢!哎呀,排名下降了。各种猜测开始在我脑海中翻腾,我开始怀疑这种方法是否可靠。
其实,并不是这种方法错了,而是用错了时间。因为SEO要谈的太多了,我就不在这里谈它是什么以及如何做。我说的是如何使用组合拳来创建漂亮的组合,以便我们的网站能够突破并成功获得良好的排名。
因为SEO的知识涉及面很广,我们会分成几个模块,从网站开始,内部决定外部,无论是人还是搜索引擎他们喜欢一个网站,因为它有素材,在这里你可以知道你想知道什么,那么这就需要我们用心去运营我们的网站, 用心创造内容。那么如何留心呢?
▌选择我们的关键词
关键词是用户通过搜索引擎找到我们的唯一途径,搜索引擎会关键词和我们的网页做一个
映射关系,在搜索引擎数据库中,关键词是我们网页的代表符号,那么互联网上有那么多相关的内容,一个关键词可能代表非常非常多的页面,我们如何让我们的网页排名第一呢?这就是搜索引擎排名,我们要寻找符合我们的关键词,可能有很多关键词符合我们,我们在选择的时候一定要注意技巧。
1.不要选择大关键词
比如我现在负责易观产品的官方网站,我们的产品是大数据分析的,我们的客户在百度会用什么词来找?大数据分析这个词可能是首先想到的,但这个词的价值并不高,为什么?大数据分析知识、大数据分析模型、大数据分析产品等相关关键词可能会引发这个关键词,但对我们来说最有价值的是关键词大数据分析产品,那么我们就不能把精力花在这个大字上,应该把重点放在大数据分析产品这个字眼上。不要说大话,因为大词很难,价值低,而且在吸引客户方面不准确。
2.挖掘符合我们的长尾关键词
长尾关键词其实是我们关键词的补充,比如大数据分析产品,
产品都是对大数据分析的补充,组合成一个新词,这个新词我们还可以挖掘更多的长尾关键词,比如大数据分析产品对比、大数据分析产品价格等等,不同的关键词我们必须有相应的登陆页面。
如何挖关键词,我们可以通过相关工具帮我们,有很多免费工具供我们选择,国外关键词挖矿工具有谷歌趋势、谷歌搜索控制台等免费工具,国内我比较喜欢用爱站,虽然挖矿比较需要付费,但是免费也可以帮我们挖很多关键词。
通过该工具,我们可以了解用户最常搜索哪些单词,并过滤掉对我们有价值的关键词作为我们的页面关键词。
3. 通过竞争网站挖掘有价值的关键词
这种方法需要我们打开我们友好的网站,看看他们的栏目页面标题(页面标题)用了什么关键词,你可以在搜索引擎搜索框中输入site:域名,看看他们的标题用了什么关键词,记录这些关键词,朋友是对手和老师,他们选择的关键词也会成为我们选词的关键参考。
▌ 结构优化,让搜索引擎进来谈恋爱搜索引擎通过自己的爬虫
抓取我们的页面,比如百度的百度蜘蛛、谷歌的Googlebot等搜索引擎也有自己的爬虫,我们不再赘述。这些爬虫是帮助我们的网站被搜索引擎索引的好朋友,我们希望提供良好的服务。
" />
他们更喜欢网页
符合W3C标准和结构规范的,比如文本很多,没有死胡同的页面,他们很懒惰,他们想知道哪个是主题,哪个是次要内容。没错,他们就是那么聪明和温暖。如何娱乐他们?
1. TDK优化
T:标题,是我们的页面标题,这个
是它了解这个页面的第一个角度,我们希望用户用什么关键词来搜索这个页面,那么这里必须放相关的关键词。重要性不言而喻。
D:描述,页面介绍,
更实用的是,当页面在搜索引擎列表中时,这里可以简单总结一下我们做了什么,有的会把手机放在这里,方便直接沟通。
K:关键词,关键词,现在存在的意义很低,你可以把我们页面的关键词放在这里,虽然没用。
尤其是标题,我们要关注,里面的字,是直接决定我们能不能被搜索到的关键。
2. 页面内容布局
如前所述,网页的标题是蜘蛛判断我们页面做什么的中心点,所以我们页面的内容应该围绕这个主题开发。
这里要提到的是关键词密度,我们的内容必须收录
这个标题的关键词,密度应该在2%到8%之间。否则,如果关键词写,这个标题就不会排名很好。
3. H1标签不应被滥用
我们在写页面的时候,往往不会考虑HTML元素的组合和使用,因为我们可以重置HTML原生的所有样式,即使我们用错了元素,页面渲染的效果还是那么漂亮,但是这里要说的是,我们的小蜘蛛很敏感,看元素用法不规范, 光不高兴,重的转身离开。所以我们要规范使用,最重要的是这个H1标签,
我们都知道H1标签是识别主题的意思,当蜘蛛看到这个标签时,它会默认这个是当前页面的标题,
和我们的标题A级,但是如果这个页面出现多个H1,蜘蛛就糊涂了,不明白这个页面的中心思想是哪个,要么随便找一个作为标题,要么直接去下一页。因此请记住,一个页面只有一个 H1 标签,所有其他副标题都替换为 H2,H3 用于较低级别。
4. 导航结构设计
网站导航是
一般整个网站统一,有些企业网站会在导航上放一个首页,而且是排在第一位的,其实是可以删除的,但是为了方便用户返回首页一般很多人都这么放,如果有这个首页的字眼,建议不跟着链接, 为了不希望主页有这样的关键词。
导航的位置非常重要,他是蜘蛛爬行的入口,导航
级别越浅,蜘蛛收录
页面的概率就越高,所以把我们的核心页面放在导航入口是非常重要的,导航也是蜘蛛反复旅行的重要通道,也是很好的内在链接。
导航这里记得用js动态加载分类,因为爬虫无法识别js动态加载的内容,如果二级分类是放在鼠标上出现,那么一定要在源码中拥有这个二级内容,只是暂时隐藏。不要通过数据请求获取它。
" />
5. 徽标部分优化
每个网站的logo都有,但是这里往往很多人不会好好处理,因为这里一般都放的是首页地址,所以一般没有任何文字,一张图片链接到首页,往往区分权重,这里和导航首页关键词一样应该是链接地址做nofollow,首页是我们网站权重最大的地方, 我们期望他的入口都按照我们规定的关键词,就像一条水道,保持水流速的最好办法就是避免太多的间隙,这就是道理。
6. 所有出站链接都应不关注
网站一般都有备案信息,链接到国家工业和信息化局的网站,这样的链接要么被删除,要么不予关注,不允许分我们的权重。确保我们收录
的运河是最大的,并且水量按照我们计划的方向流动。引导蜘蛛正确行走并抓取抓取的页面。
蜘蛛怎么能不喜欢这样具有标准化页面、清晰入口和清晰说明的网页?
▌ 借助工具,不断优化网站
这里不得不提的是方舟是如何帮助我们优化方舟官网的,一个好的工具确实可以让我们事半功倍,当我们离开工具的时候,往往依靠以往的经验和猜测,通过测试来验证想法,这个过程往往需要很长时间。也可能有不准确的数据影响我们的判断,因此我们需要一个方便的工具。帮助我们及时发现问题,并在第一时间做出数据反馈,帮助我们及时改进。
方舟的热图分析工具帮助我们做出结构匹配决策,一旦我们讨论过,体验一下旁边的演示按钮,是否会区分用户点击演示按钮,将下载按钮替换为一行文字也不会更好,当我们打开热图分析时,数据已经告诉我们结果。
当我们进行页面的响应式设计时,我们在方舟事件分析中参考了设备纬度,以告诉我们应该关注哪些终端体验。
知道哪些搜索引擎来得更多,针对相应的渠道进行优化,精准高效。
我们可以计划下一次大迭代应该通过爬虫的访问时间和周期,这样爬虫就可以在第一时间更新我们的内容,爬虫访问的频率直观地呈现在我们眼前,通过查看过去的系统日志,爬虫轨迹已经成为历史。
▌ 坚持原著,蜘蛛的胃口越来越好
优化是消除爬虫的障碍
来到我们的网站,内容就是像我们这样的爬虫的根,没有内容结构是没用的,内容很差,都是抄袭的文章,爬虫不会收录这些页面,所以坚持原创内容留住这个小宝贝。
搜索引擎最近升级了好几次,对文章相似度的判断越来越准确,过去大家调整了段落的顺序,把里面的字改成了原创,这就要求我们不要投机取巧,用心去创造。
由于篇幅所限,很难写完一篇关于网站优化的文章,以及内部链接关键词、面包屑、图片技巧、页面聚合等知识点,我们会放在下一篇文章中。本文主要讲结构优化,关键词挖掘,导航技巧和内容,这也是我们网站前期要做好的几点。前面说的,方法没有好坏之分,关键是要用对的时机,希望大家在新网站开局就注意这些要点。
易观Argo现已免费使用,有兴趣的同学可点击阅读原文下载安装,或扫描下方二维码试用。体验易观Argo带给我们优化网站的快感。
在
原创
文章上盖章,下载并安装易观Argo