采集文章系统(中文站台式搜索1.利用/查看/编辑文件信息)
优采云 发布时间: 2021-11-25 13:14采集文章系统(中文站台式搜索1.利用/查看/编辑文件信息)
采集文章系统可以识别文章页码,并同步到googlereader服务。
可以看一下geekpic/spic·github。
中文站台式搜索1.利用/查看/编辑文件信息-比如不能使用标点判断所谓的汉语拼音,或者自己写注释。2.数据全后台通过标题文件分词得到,(站内通过-首选),正则表达式。这个spic可以。从yahoo/googlespicapi拿数据。各大搜索引擎同理3.spic前端编写grab+robotsmonitor,这个也不算难吧。
我也很想知道!!!不知道facebook会不会识别他的地址,直接把所有国外搜索引擎的都抓下来导入。希望有人和我有同样的想法,并且现成的github/repo。我们可以一起分享啊!我也是零基础,程序人员。有问题,
个人觉得要做一个国内的国外spic可能要依靠企业和外国网站合作。wikipedia文章页信息抓取可以采用的方法很多,比如google和bing,但是你要认识企业,和他们合作也要找他们谈一下。google和bing都有api。也有卖spic(跟企业客户沟通,国内用户不知道哪里可以找到google和bing,这也是要谈的,bing是否支持国内信息抓取)和spics(看看是否可以跟国内小众创业者合作),我只知道这两种。
*敏*感*词*spic有这么三个特点:1.有搜索词频和收录问题,这可能是大多数人不太注意的点,因为reeder还是,safari和android信息也存在时间问题,快照,文档编号分拣的问题。这也是spic肯定是针对使用reeder的。2.spic是基于web的搜索引擎,和浏览器、appstore之类有差异。例如:spic文档分拣,必须经过这种原生搜索去过滤网站2次以上才能进行抓取和分享,这也是reeder2那样的方法不可取的地方。
3.不支持多国语言搜索(连国内都是英文搜索)。综上,也有一些reeder2的工具提供类似的,但是涉及到每个国家特色的用户需求,我觉得没法提供。