如果伪原创 解决方案:搜索引擎中优化规定
优采云 发布时间: 2022-12-01 09:56如果伪原创 解决方案:搜索引擎中优化规定
搜索引擎中的第二定律就是规定了在优化时不能使用的方法,以及在做推广优化时不能超过的范围,也就是说在搜索引擎法中,总有遵循以下的法则在优化网站时这是一种不能按照Search Citation中规定使用的方法。
(1) 欺骗搜索引擎,如果在页面或者代码中加入一些不符合自己网站本身已有信息的信息,就是一些虚拟信息,那么搜索引擎一旦发现,就会认为作为欺骗搜索引擎,会让你的网站被搜索引擎屏蔽。
(2)文章更新时,关键词不能加太多,关键词的间隔不能小于8%。如果小于8%,搜索引擎就会认为你的网站在恶意添加关键词,让搜索引擎误导对你的信息收费。
" />
(3)文章更新时,不易添加违法信息。如果你添加了非法信息,搜索引擎会将你的网站视为非法网站,你的网站将在搜索引擎中被屏蔽。
(4) 文章不得伪原创。如果你使用伪原创工具,一旦被搜索引擎发现,你站点文章中收录
的所有信息将被删除,导致你所有的内外链接都失效,所以不要走捷径来招惹自己” 的杀生之祸”,而且文章最好是原创,即使是伪原创,也不要使用工具,用自己的话重新描述文章的意思。
" />
(5)使用黑链接交换友情链接也是违规的,但是这种违规行为不是很严重,搜索引擎*敏*感*词*黑链接也不是很严格,所以越来越多的人之所以这样做黑链接是因为搜索引擎调查的概率很低。
(6) 软件群发工具,只要是用来发大量帖子的程序,都属于黑帽技术,所以一旦使用黑帽技术的人被搜索引擎抓到,就只有一个死胡同。
在做SEO的时候,只要不违反以上6条规律,就不会出现问题,也不会被搜索引擎屏蔽。
最新版:用Python实现实时显示视频下载进度!
文字 | 不锈钢
来源:Python技术《ID:pythonall》
前段时间分享了一篇如何用Python轻松将车帝视频转成文字的文章。下载过程我跳过了,现在补上。
在下载车帝视频的时候,我们需要一个实时进度条,可以帮助我们更直观的看到视频的下载进度
下载好视频。如下所示
具体的实现步骤可以概括为两点:
这个方法很实用。大家还记得我们是怎么爬取公众号文章的吗?只需要十几行代码就可以轻松爬取公众号的文章,而且还是绕过登录的cookie
记得关于进度条的那篇文章发在python技术公众号上,不过是半年前的文章了。我怎样才能找到它方便?
这时候,我们上周爬取的200条公众号文章就发挥作用了:
阅览室-公众号,搜索“进度条”
不难发现“几行代码就能实现一个漂亮的进度条,太棒了!” “已经介绍过了,有了这些内容,就好办了。
让我们开始让 python 为我们做这些工作。
Cookie 绕过登录过程
您可以通过按 F12 或使用鼠标右键检查来查看 cookie
视频页面的唯一标识,通过cookie获取,是下面一串数字
代码如下
import requests
import json
headers = {
"cookie":"appmsglist_action_3889613222=card; ua_id=Q1Dfu2THA6T9Qr1HAAAAAN_KYa5xTwNmiuqj1Mkl6PY=",
"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36"
}
def parser():
video_list = []
rep=requests.get('https://www.dongchedi.com/motor/pc/user/collect/list?count=40&cursor=0&content_type=1',timeout=5,headers=headers)
<p>
" />
rep.encoding='utf-8'
for item in json.loads(rep.text)['data']['data']:
video_list.append('https://www.dongchedi.com/video/'+item['gid'])
print(video_list)</p>
运行上面的脚本获取视频url集合
['https://www.dongchedi.com/video/7150286063049802270', 'https://www.dongchedi.com/video/7161306839810998815',
...]
但它们并不是真正的视频地址,实际地址位于vedio标签的src属性中
接下来就是获取这些视频链接,我们使用scrapy向这些url发送请求。
将url集合放入scrapy的start_urls中,通过xpath获取视频地址:
class VedioSpider(scrapy.Spider):
name = 'vedio'
start_urls = ['https://www.dongchedi.com/video/7150286063049802270', 'https://www.dongchedi.com/video/7161306839810998815',...]
def parse(self, response):
global vedio_dict
html =etree.HTML(response.text)
#视频标题
title = html.xpath('//*[@id="__next"]/div[1]/div/div/div/div[2]/div/div[1]/h1/text()')[0].strip()
#视频地址,@src获取vedio标签的src属性
x = html.xpath('//*[@id="__next"]/div[1]/div/div/div/div[1]/div[1]/div/div[1]/div/div/div/video/@src')
vedio_dict[title] = x[0]
print(vedio_dict)
输出得到标题和视频地址:
我们已经完成了三分之二,让我们使用一个很酷的进度条
直观显示下载进度
视频文件过大,立即下载会导致内存不足,将requests的stream参数设置为True
当设置为True时,不会立即开始下载,只有在使用iter_content或iter_lines遍历内容或访问内容属性时才会开始下载。
import os
<p>
" />
import requests
from tqdm import tqdm
VIDEO_PATH = r'videos'
def download(url,fname):
# 用流stream的方式获取url的数据
resp = requests.get(url, stream=True)
total = int(resp.headers.get('content-length', 0))
with open(fname, 'wb') as file, tqdm(
desc=fname,
total=total,
unit='iB',
unit_scale=True,
unit_divisor=1024,
) as bar:
for data in resp.iter_content(chunk_size=1024):
size = file.write(data)
bar.update(size)
if __name__ == "__main__":
vedio_dict = {'沉浸式试车-2023款大众朗逸': 'https://vxtos', '苑叔试驾新款福特探险者,科技配置有升级,大车也有操控感': 'https://v3-default',}
for video_name, url in vedio_dict.items():
video_full_path = os.path.join(VIDEO_PATH,"%s.mp4" % video_name)
download(url, video_full_path)</p>
我的网速比较快,平均3M/s,5G视频下载速度很快!
本文由Python技术公众号粉丝ssw投稿。欢迎大家继续投稿!
PS:Python技术交流群(主要是技术交流,钓鱼,免费嫖课)不定期开放。感兴趣的朋友,可以在下方公众号回复:666,可以进入,一起规划100天!
老规矩,你还记得吗,点击右下角“在看”,如果你觉得文章内容不错,记得分享到朋友圈,让更多人知道!
【神秘礼包获取方式】