采集文章系统(中文站台式搜索1.利用/查看/编辑文件信息)

优采云发布时间: 2021-11-25 13:14

　　采集文章系统可以识别文章页码，并同步到googlereader服务。

　　可以看一下geekpic/spic·github。

　　中文站台式搜索1.利用/查看/编辑文件信息-比如不能使用标点判断所谓的汉语拼音，或者自己写注释。2.数据全后台通过标题文件分词得到，（站内通过-首选），正则表达式。这个spic可以。从yahoo/googlespicapi拿数据。各大搜索引擎同理3.spic前端编写grab+robotsmonitor,这个也不算难吧。

　　我也很想知道！！！不知道facebook会不会识别他的地址，直接把所有国外搜索引擎的都抓下来导入。希望有人和我有同样的想法，并且现成的github/repo。我们可以一起分享啊！我也是零基础，程序人员。有问题，

　　个人觉得要做一个国内的国外spic可能要依靠企业和外国网站合作。wikipedia文章页信息抓取可以采用的方法很多，比如google和bing，但是你要认识企业，和他们合作也要找他们谈一下。google和bing都有api。也有卖spic(跟企业客户沟通，国内用户不知道哪里可以找到google和bing，这也是要谈的，bing是否支持国内信息抓取)和spics(看看是否可以跟国内小众创业者合作)，我只知道这两种。

　　*敏*感*词*spic有这么三个特点:1.有搜索词频和收录问题，这可能是大多数人不太注意的点，因为reeder还是，safari和android信息也存在时间问题，快照，文档编号分拣的问题。这也是spic肯定是针对使用reeder的。2.spic是基于web的搜索引擎，和浏览器、appstore之类有差异。例如：spic文档分拣，必须经过这种原生搜索去过滤网站2次以上才能进行抓取和分享，这也是reeder2那样的方法不可取的地方。

　　3.不支持多国语言搜索(连国内都是英文搜索)。综上，也有一些reeder2的工具提供类似的，但是涉及到每个国家特色的用户需求，我觉得没法提供。

0

2021-11-25

采集文章系统

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

采集文章系统(中文站台式搜索1.利用/查看/编辑文件信息)

0 个评论

发起人

AI时代内容工厂

采集文章系统(中文站台式搜索1.利用/查看/编辑文件信息)

0 个评论

发起人

相关问题