自动采集系统(新闻自动采集系统做完了,散分系统已架起,正在优化)
优采云 发布时间: 2022-03-26 22:22自动采集系统(新闻自动采集系统做完了,散分系统已架起,正在优化)
新闻自动采集系统完成分散
系统用C#编写,需要.NET Framework2.0环境,可以根据你设置的规则采集不同的网站消息,但要求你熟悉正则表达式。
目前系统还存在一些小缺陷,一是分页的新闻页面无法提取;另一个是一些需要用户登录的页面不能是采集。需要专家指导。
- - - 解决方案 - - - - - - - - - -
我不知道如何处理分页
只需遍历以下链接
对于用户登录,最好在程序中嵌入一对用户名和密码
提交后看新闻
- - - 解决方案 - - - - - - - - - -
我也需要了解制作网页的习惯~~哈哈~~~
- - - 解决方案 - - - - - - - - - -
分页 根据分页的规则,很多分页地址是?page=1?page=2
- - - 解决方案 - - - - - - - - - -
你是怎么做到的?你能告诉我大致的想法吗?
- - - 解决方案 - - - - - - - - - -
对于分页,更常见的是使用遍历。.
对于用户名和密码,实际上是添加了一个权限。如果你能绕过它,你就可以轻松实现目标。否则,您只能使用有效的用户名和密码登录。
- - - 解决方案 - - - - - - - - - -
我们正在这样做。我们还采集了更多信息。
系统已经搭建完成,正在优化中...
- - - 解决方案 - - - - - - - - - -
恭喜
- - - 解决方案 - - - - - - - - - -
杰夫
- - - 解决方案 - - - - - - - - - -
恭喜,JF
- - - 解决方案 - - - - - - - - - -
TO:首先,分页的新闻页面无法提取
那我们就只能分析链接了,根据页面URL的特点来判断是否是同一条新闻。
TO:不适用于某些需要用户登录的网页采集
没有办法做到这一点,你必须知道用户名和密码才能登录到采集...
也恭喜你,拿分...
- - - 解决方案 - - - - - - - - - -
我做了一个采集阿里巴巴企业资料的东东。具体思路如下:
先搜索一个你想得到一个列表的关键字,得到列表的HTML,然后用正则表达式得到每个公司的公司主页链接。关于分页,你可以分析它的 URL。事实上,只有一个变量,可以用循环来完成。. 将获取到的链接放入TXT,然后逐行读取,再次获取HTML,获取到你需要的正则信息。后退...
- - - 解决方案 - - - - - - - - - -
楼主可以回应不同的新闻系统采集吗?
- - - 解决方案 - - - - - - - - - -
我目前正在研究搜索引擎,但我才刚刚开始......
- - - 解决方案 - - - - - - - - - -
为每个不同的页面执行不同的正则表达式
- - - 解决方案 - - - - - - - - - -
我还没有做过,但我想学习它。
- - - 解决方案 - - - - - - - - - -
JF,顶部
- - - 解决方案 - - - - - - - - - -
对于用户登录,最好在程序中嵌入一对用户名和密码
提交后看新闻
- - - 解决方案 - - - - - - - - - -
我还没学,想学
- - - 解决方案 - - - - - - - - - -
jf,也学
- - - 解决方案 - - - - - - - - - -
标记,学习。
- - - 解决方案 - - - - - - - - - -
杰夫
- - - 解决方案 - - - - - - - - - -
是不是不同的网页,比如新浪和163的新闻页面格式应该不一样?
- - - 解决方案 - - - - - - - - - -
杰夫
- - - 解决方案 - - - - - - - - - -
没研究过这种项目,只开发了一些常用的小应用系统,总想做一些有趣的事情。学习
- - - 解决方案 - - - - - - - - - -
杰夫
- - - 解决方案 - - - - - - - - - -
杰夫
- - - 解决方案 - - - - - - - - - -
快点,
恭喜。
- - - 解决方案 - - - - - - - - - -