解决方案:简单暴力省心,还支持实时google翻译,真正实现爬虫+神器模式
优采云 发布时间: 2022-12-20 19:14解决方案:简单暴力省心,还支持实时google翻译,真正实现爬虫+神器模式
文章采集系统自动批量采集微信公众号文章,自动分词导出,自动分词文本采集、翻译、标注、词频统计自动抓取豆瓣影评,并且自动分词并把电影翻译成中文所有功能说明和代码都放在:wooyue/gan_ai_text_scraping之前用的是爬虫框架,但是发现爬虫框架有时候太麻烦,无论是封禁ip、断网还是流量限制,不利于采集的扩展。
最近找到这个神器,简单暴力省心,还支持实时google翻译,真正实现爬虫+神器模式。这个网站几乎囊括了各大爬虫框架的优缺点,主要是还支持自定义爬虫爬取规则,一种模式结合新姿势进行各种攻防。百度一下便可找到代码。现在的豆瓣,只要找对手,基本可以媲美b站看番的体验。豆瓣的标注种类还算多,各种评分、电影出演、拍摄地、评价人数都有,但是要按照一个原则来抓取豆瓣,比如有一部电影不能按照评分来搜,要按照时间顺序来搜。
这个时候有两个神器可以打开:电影字幕组和豆瓣翻译。这两个神器都支持日语,最让人困扰的是日本某一部片子的翻译都一样,导致很难抓取精准翻译的最好。豆瓣字幕组的「翻译人数」,已经达到32880,其中一本满足翻译了68部豆瓣标签电影,另外416部还在翻译中,翻译部分电影字幕的字幕组已经达到34670个了。其他的几十部豆瓣标签电影还在翻译中,现在还没有翻译完。
豆瓣翻译支持使用日语这个分支搜电影字幕。以日语标签搜翻译部分电影的结果更多,出现了16500部。然后再随便打开一个页面,就直接达到了这样的页面:点开页面下方的播放按钮,很多是未播放,以及想全部播放,但是没有选择,可以保存,打开再抓取。点击绿色播放按钮会出现灰色模糊的字幕列表。看下图(左一):这个字幕列表就是百度翻译的结果了,这个字幕是我自己添加的,百度翻译不支持按照评分、时间、电影地址等分类来查找。
我在评分部分,如2012年的话就选2012年,评分是2012年的,结果也是一样的,和豆瓣的搜索结果都一样。电影还支持英语和日语翻译,点击左侧的绿色播放按钮会出现蓝色界面,里面有所有已经翻译过的电影名字,找到想看的电影,即可前往电影字幕组这里搜索电影名。不过这里搜索的结果有时候有点乱,也不太好,需要多点几下鼠标才行。
现在已经有两千多部电影可以用了,可以正常的复制和发布和检索。还有看看左侧红框里的地址,可以不用经过豆瓣翻译,直接拿来就可以翻译,但是我还没试,因为已经有两千多部,只需要10几秒就会出现好几百条翻译结果,如果做成爬虫需要每秒处理这些数据才行。要检索好多才能让爬虫正常工作。其实我觉得豆。