采集系统(采集系统可以用爬虫技术,爬几十篇文章就够了)
优采云 发布时间: 2022-03-23 03:04采集系统(采集系统可以用爬虫技术,爬几十篇文章就够了)
采集系统可以用爬虫技术,爬几十篇文章就够了。
知乎上很多推荐都是错的。想办法选到合适的问题,最好是深度比较好的问题。我也是多次尝试后才过滤掉一些内容。你用自动问答系统比较难避免大段乱码,导致有些问题把自己问过了,或者回答过多。你可以换一个口味,选择合适的问题,用爬虫去获取真实性高的回答。
中文优先考虑partial,而不是negativescore。在时间稍微拖的长一点后,partial带入正常的log(或者content)去partial。
不建议爬虫,可以用nosql爬it门户网站的文章的内容,用户评论爬evernote的笔记内容。最主要的做好爬虫前的分析,基于此采集每个页面的内容,再用正则表达式抓取文章页面全部内容作为数据库。然后可以模拟登录发邮件来发布,具体怎么解决不明。可以用googlespider,应该也可以解决。谢谢邀请。
你可以搜索一下,不是很懂中文,谷歌,百度翻译都可以。
你可以了解一下爬虫
推荐piwik,
最好抓全文,就像百度翻译一样抓全文!一般的回答都会被抓去。
最近开始尝试要搜索自己关注的话题下比较有质量的答案了,会根据关注人和问题数以及关注数来找到候选回答。按照这个顺序找效率会高一些。