采集系统(采集系统可以用爬虫技术,爬几十篇文章就够了)

优采云 发布时间: 2022-03-23 03:04

  采集系统(采集系统可以用爬虫技术,爬几十篇文章就够了)

  采集系统可以用爬虫技术,爬几十篇文章就够了。

  知乎上很多推荐都是错的。想办法选到合适的问题,最好是深度比较好的问题。我也是多次尝试后才过滤掉一些内容。你用自动问答系统比较难避免大段乱码,导致有些问题把自己问过了,或者回答过多。你可以换一个口味,选择合适的问题,用爬虫去获取真实性高的回答。

  中文优先考虑partial,而不是negativescore。在时间稍微拖的长一点后,partial带入正常的log(或者content)去partial。

  不建议爬虫,可以用nosql爬it门户网站的文章的内容,用户评论爬evernote的笔记内容。最主要的做好爬虫前的分析,基于此采集每个页面的内容,再用正则表达式抓取文章页面全部内容作为数据库。然后可以模拟登录发邮件来发布,具体怎么解决不明。可以用googlespider,应该也可以解决。谢谢邀请。

  你可以搜索一下,不是很懂中文,谷歌,百度翻译都可以。

  你可以了解一下爬虫

  推荐piwik,

  最好抓全文,就像百度翻译一样抓全文!一般的回答都会被抓去。

  最近开始尝试要搜索自己关注的话题下比较有质量的答案了,会根据关注人和问题数以及关注数来找到候选回答。按照这个顺序找效率会高一些。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线