在线抓取网页的思路：scrapy对html文件自动进行分词

优采云发布时间: 2022-04-29 06:00

　　在线抓取网页的思路：scrapy对html文件自动进行分词，其中把中文分词问题就转化为翻译问题了。首先：去看翻译规则：然后搜索chinesewebtranslation下的相关结果：api:(fulltext+api)1-国家社会中英翻译api:(fulltext+api)2-国家社会中英翻译api:(fulltext+api)3-个人翻译api:1-人工翻译api:2-机器翻译api:3-可以看到，翻译api有两种：1.两个api各自翻译80%的中文：2.全自动api：根据用户填的信息从几千万篇中文文章中自动找出1万篇中文文章。多看api文档，有利于理解api，也容易有代码实践的动力。

　　刚好我是redis学徒这个navicat采集的主要是阿里巴巴,支付宝之类的网站,并进行简单的翻译

　　你可以去python开发者社区看看怎么抓取其他的网站。

　　可以建立文本爬虫,把中国文章翻译成英文.

　　我见过，用的是。用id做一个字典id，每行都是中文。返回的字典里。翻译id对应一个结果，返回后继续翻译。

　　requests或beautifulsoup---web自动抓取神器，

　　python3有scrapy了，

　　根据自己的需求来，直接用语句或者用正则找文本。我自己经常用selenium加navicat配合其他方法。

0

2022-04-29

在线抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

在线抓取网页的思路：scrapy对html文件自动进行分词

0 个评论

发起人

AI时代内容工厂

在线抓取网页的思路：scrapy对html文件自动进行分词

0 个评论

发起人

相关问题