在线抓取网页的思路:scrapy对html文件自动进行分词

优采云 发布时间: 2022-04-29 06:00

  在线抓取网页的思路:scrapy对html文件自动进行分词

  在线抓取网页的思路:scrapy对html文件自动进行分词,其中把中文分词问题就转化为翻译问题了。首先:去看翻译规则:然后搜索chinesewebtranslation下的相关结果:api:(fulltext+api)1-国家社会中英翻译api:(fulltext+api)2-国家社会中英翻译api:(fulltext+api)3-个人翻译api:1-人工翻译api:2-机器翻译api:3-可以看到,翻译api有两种:1.两个api各自翻译80%的中文:2.全自动api:根据用户填的信息从几千万篇中文文章中自动找出1万篇中文文章。多看api文档,有利于理解api,也容易有代码实践的动力。

  刚好我是redis学徒这个navicat采集的主要是阿里巴巴,支付宝之类的网站,并进行简单的翻译

  你可以去python开发者社区看看怎么抓取其他的网站。

  可以建立文本爬虫,把中国文章翻译成英文.

  我见过,用的是。用id做一个字典id,每行都是中文。返回的字典里。翻译id对应一个结果,返回后继续翻译。

  requests或beautifulsoup---web自动抓取神器,

  python3有scrapy了,

  根据自己的需求来,直接用语句或者用正则找文本。我自己经常用selenium加navicat配合其他方法。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线