在线抓取网页的思路:scrapy对html文件自动进行分词
优采云 发布时间: 2022-04-29 06:00在线抓取网页的思路:scrapy对html文件自动进行分词
在线抓取网页的思路:scrapy对html文件自动进行分词,其中把中文分词问题就转化为翻译问题了。首先:去看翻译规则:然后搜索chinesewebtranslation下的相关结果:api:(fulltext+api)1-国家社会中英翻译api:(fulltext+api)2-国家社会中英翻译api:(fulltext+api)3-个人翻译api:1-人工翻译api:2-机器翻译api:3-可以看到,翻译api有两种:1.两个api各自翻译80%的中文:2.全自动api:根据用户填的信息从几千万篇中文文章中自动找出1万篇中文文章。多看api文档,有利于理解api,也容易有代码实践的动力。
刚好我是redis学徒这个navicat采集的主要是阿里巴巴,支付宝之类的网站,并进行简单的翻译
你可以去python开发者社区看看怎么抓取其他的网站。
可以建立文本爬虫,把中国文章翻译成英文.
我见过,用的是。用id做一个字典id,每行都是中文。返回的字典里。翻译id对应一个结果,返回后继续翻译。
requests或beautifulsoup---web自动抓取神器,
python3有scrapy了,
根据自己的需求来,直接用语句或者用正则找文本。我自己经常用selenium加navicat配合其他方法。