内容分享:搜索引擎最喜欢什么内容?
优采云 发布时间: 2022-12-11 06:44内容分享:搜索引擎最喜欢什么内容?
今天想和大家讨论一下原创文章是否更容易被搜索引擎搜索到收录。其实我觉得搜索引擎喜欢的不是原创内容,而是有价值的原创内容。很多人对此有误解,认为只要文字是原创,很多人就会翻译国*敏*感*词*。归根结底,搜索引擎想要的 收录 就是用户想要的。
提供用户所想的搜索引擎,其本质就是为用户提供他们想要的内容。我们推广的目的是为了找到真正的用户。两者可以有机结合:我们在文章中为用户提供想法。不管你想要什么,搜索引擎都会把我们的文章给用户。这样,搜索引擎帮助了用户,增加了用户粘性,我们得到了真实的用户访问。从以上我们可以知道,作为SEO,我们可以与搜索引擎实现合作共赢。搜索引擎不会收录对用户有帮助的页面。这就是我们常说的优秀用户体验文章。
同时,外链最好的利用方式就是友链,软文的推广也不错,尤其是可以在文章自带链接。如果您是商家网站,您也可以在分类信息平台发布网站文章和商品页面链接。推荐使用优采云中的助手。你只需要在优采云全网素材中找到一篇你想写的文章文章,然后分析软文全文的语义即可实现智能化伪原创,然后你可以重新创建一个新的文章。它应该只需要正常时间的 1/4,可以节省大量时间。本文由优采云编辑撰写!
分享文章:python采集微信公众号文章
本文示例分享python采集微信公众号文章的具体代码供大家参考,具体内容如下
在python的子目录中存储2个文件,即:采集公共帐户文章.py和 config.py。代码如下:
1. 采集公众号文章.py
from urllib.parse import urlencode
import pymongo
import requests
from lxml.etree import XMLSyntaxError
from requests.exceptions import ConnectionError
from pyquery import PyQuery as pq
from config import *
#配置MongoDB
client = pymongo.MongoClient(MONGO_URI)
db = client[MONGO_DB]
base_url = 'http://weixin.sogou.com/weixin?'
#添加头文件
headers = {
'Cookie': 'usid=S-pkM6vW_a*敏*感*词*ktr1; SUV=00A75E9078EFD9F75A6573ECAD0EC883; wuid=AAGCxerSHQAAAAqRGn4SoAgAAAA=; IPLOC=CN4414; SUID=767BEAB73220910A000000005AA9E2AA; pgv_pvi=159197184; pgv_si=s8252565504; ABTEST=0|1521083055|v1; weixinIndexVisited=1; sct=1; jsESSIONID=aaalXqKRP6JjS8a*敏*感*词*Hwhw; ppinf=5|1521083238|1522292838|dHJ1c3Q6MToxfGNsaWVudGlkOjQ6MjAxN3x1bmlxbmFtZTo2OiUzQSUyOXxjcnQ6MTA6MTUyMTA4MzIzOHxyZWZuaWNrOjY6JTNBJTI5fHVzZXJpZDo0NDpvOXQybHVOaExNcS1vLW1zbjMxMmNMSkp4OGpZQHdlaXhpbi5zb2h1LmNvbXw; pprdig=tbVf7qLZdDMjpCn4jTf3dg8C8NeRX-YgDi8KUcezn0rteWuhkgU4xMNaxZbakVQuswboIGl_rD-34abU6VY9Jkv7me3BypigyDnIv2lJUchGCo7Gk58m9Qhrm3Aa7NHLHjFVYoaQkQgBSYKpatxMNPe3Tm57ZDlzdPg_8mBmBNQ; sgid=23-30671195-AVqp42ZctqiaCybbDvvfWno4; phpSESSID=4jjk2a9rv6kq7m50f42r92u3r3; SUIR=D2DF4E12A5A1C3CE1A8AD7F2A5FE18FE; ppmdig=1521087492000000855f9824f94abe82b25d2839135ad3a8; SNUID=FEF36D3F8882EFE*敏*感*词*FCF61E68801DA49; seccodeRight=success; successCount=1|Thu, 15 Mar 2018 04:23:23 GMT',
'Host': 'weixin.sogou.com',
'Referer': 'http://weixin.sogou.com/antispider/?from=%2fweixin%3Fquery%3d%E9%A3%8E%E6%99%AF%26type%3d2%26page%3d95%26ie%3dutf8',
'Upgrade-Insecure-Requests': '1',
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36'
}
#初始化代理为本地IP
proxy = None
#定义获取代理函数
def get_proxy():
try:
response = requests.get(PROXY_POOL_URL)
if response.status_code == 200:
return response.text
return None
except ConnectionError:
return None
#添加代理获取网页内容
def get_html(url, count=1):
print('Crawling', url)
print('Trying Count', count)
global proxy
if count >= MAX_COUNT:
print('Tried Too Many Counts')
return None
try:
if proxy:
proxies = {
'http': 'http://' + proxy
}
<p>
response = requests.get(url, allow_redirects=False, headers=headers, proxies=proxies)
else:
response = requests.get(url, allow_redir编程客栈ects=False, headers=headers)
if response.status_code == 200:
return response.text
if response.status_code == 302:
# Need Proxy
print('302')
proxy = get_proxy()
if proxy:
print('Using Proxy', proxy)
return get_html(url)
else:
print('Get Proxy Failed')
return None
except ConnectionError as e:
print('Error Occurred', e.args)
proxy = get_proxy()
count += 1
编程客栈 return get_html(url, count)
#获取索引页内容
def get_index(keyword, page):
data = {
'query': keyword,
'type': 2,
'page': page
}
queries = urlencode(data)
url = base_url + queries
html = get_html(url)
return html
#解析索引页,提取详情页网址
def parse_index(html):
doc = pq(html)
items = doc('.news-box .news-list li .txt-box h3 akiqBbeL').items()
for item in items:
yield item.attr('href')
#获取详情页
def get_detail(url):
try:
re编程客栈sponse = requests.get(url)
if response.status_code == 200:
return response.text
return None
http://www.cppcns.com except ConnectionError:
return None
#解析索引页,返回微信文章标题、内容、日期、公众号名称等
def parse_detail(html):
try:
doc = pq(html)
title = doc('.rich_media_title').text()
content = doc('.rich_media_content').text()
date = doc('#post-date').text()
nickname = doc('#js_profile_qrcode > div > strong').text()
wechat = doc('#js_profile_qrcode > div > p:nth-child(3) > span').text()
return {
'title': title,
'content': content,
'date': date,
'nickname': nickname,
'wechat': wechat
}
except XMLSyntaxError:
return None
#存储到MongoDB,去重操作
def save_to_mongo(data):
if db['articles'].update({'title': data['title']}, {'$set': data}, True):
print('Saved to Mongo', data['title'])
else:
print('Saved to Mongo Failed', data['title'])
#主函数
def main():
for page in range(1, 101):
html = get_index(KEYWORD, page)
if html:
article_urls = parse_index(html)
for article_url in article_urls:
article_html = get_detail(article_url)
if article_html:
article_data = parse_detail(article_html)
print(article_data)
if __name__ == '__main__':
main()</p>
2.config.py 代码:
#爬取公众号文章
PROXY_POOL_URL = 'http://127.0.0.1:5000/get'
KEYWORD ='计算机等级二级' # 输入关键词
MONGO_URI = 'localhost'
MONGO_DB = 'data'
MAX_COUNT = 5
其中,config.py 中的 KEYWORD 是查找的关键词,可以根据需要进行更改。经过实测,“采集公众号文章.py”运行成功!如果由于限制而失败,则可以运行多次。
以上就是本文的全部内容,希望对你的学习有所帮助,也希望你能大力支持我们。
本文标题:python采集微信公众号文章