免费网页采集器(批量提取HTML/RTF/TXT等文件中的文本内容提取)
优采云 发布时间: 2022-03-24 00:16免费网页采集器(批量提取HTML/RTF/TXT等文件中的文本内容提取)
【基本介绍】
批量提取HTML/DOC/RTF/TXT文件中的文本信息。
支持直接从其他网站中提取文本内容生成需要的数据库文件
支持GB2312/UTF-8的多种编码
提取的信息可以生成文本文件、HTM网页文件、MDB数据库文件。
提供多种查找和获取信息的方式:
提取文件中的所有电子邮件地址
提取文件中的所有互联网地址(不带参数)
提取文件中的所有互联网地址(带参数)
提取HTML文件中body的文本内容
提取HTML文件中title和body的文本内容
提取 HTML
【基本介绍】
批量提取HTML/DOC/RTF/TXT文件中的文本信息。
支持直接从其他网站中提取文本内容生成需要的数据库文件
支持GB2312/UTF-8的多种编码
提取的信息可以生成文本文件、HTM网页文件、MDB数据库文件。
提供多种查找和获取信息的方式:
提取文件中的所有电子邮件地址
提取文件中的所有互联网地址(不带参数)
提取文件中的所有互联网地址(带参数)
提取HTML文件中body的文本内容
提取HTML文件中title和body的文本内容
提取HTML文件中textarea的文本内容
提取HTML页面的显示文本内容
提取 DOC/RTF 和其他文件中的所有文本内容
还可以自定义正则表达式获取信息