自动识别采集内容、文本爬虫多线程等多种高级程序架构
优采云 发布时间: 2022-06-09 17:10自动识别采集内容、文本爬虫多线程等多种高级程序架构
自动识别采集内容、文本爬虫多线程等多种高级程序架构自动规则提取自动填充自动复制自动排序自动切词再到文本生成,合成,数据挖掘分析用最原始的方法调参、压缩、解压就能得到最有价值的数据还能自动根据使用情况创建更全的副本保证同步更新(数据量小)甚至可以自动收集整个网站的数据,将部分关键词作为xxx使用。具体可以参见诸葛io的《10分钟自动提取数据的程序开发》。
我开发过一个爬虫系统,爬下来的就是字幕翻译的结果,翻译质量还不错,供你参考。基本上把数据分析的部分和效率部分完全实现了。
手动翻译app,简单高效
requests+python
下个语言字幕组,直接把文本传给字幕组。需要提取哪一个台词,自己用机器翻译一下台词。
python+jieba+scikit-learn这一套下来,谁还用人工翻译。
captchalabelprocessing
python+tensorflow+googleapi这样一个web翻译应该可以搞定,web+liujiyun+websocket+ip解析+resharper+parselist+log...这样一个api貌似也可以搞定。
有个爬虫软件叫[六六体彩],支持爬取九亿的历史数据的,直接可以从数据库读取资料出来自己查阅。支持windows与linux。