人体提取
优采云 发布时间: 2020-08-06 09:04网页内容正文提取,可以提取Internet上99%以上的文章内容,并智能识别其中收录的标题和正文内容. Internet上有近千万个站点,每个站点还具有N个不同的文章页面模板. 您只需要访问我们的界面,就不必担心编写文章内容采集规则. 您可以直接提取标题和密钥. 文字,摘要,正文.
标题:
文章标题
关键字:
文章关键词
摘要:
文章摘要
内容:
文章内容
人体提取
人体识别
准确识别网页的正文部分,提取的内容将不收录任何广告,导航和其他非正文内容.
内容格式转换
提取的内容可以转换为以下3种形式,默认为html形式:
惰性图像分析
支持惰性图像解析
解决了当在目标网页的内容中使用图像延迟加载技术时,无法获得图像的真实路径的问题. 智能识别文本中的惰性图片,并将图片地址自动解析为真实地址. 如果目标网页中的图像路径是相对地址,则也将自动识别绝对地址以确保图像的正常显示. 对于某些无法识别的图片,所有属性都将保留,以便开发人员以后可以进行调整.
关键字和文章摘要提取
文章关键字
根据采集到的文章的标题和内容的深入分析,输出可以反映文章关键信息的多维关键字(最多5个核心关键字),例如主题,主题和实体
文章核心摘要
结合传统语义特征和深度学习模型,充分考虑段落分布和章节结构,准确计算句子的重要性,并对文章内容进行全面的语义理解和分析. 自动从所采集文章的文本中提取关键信息,然后生成指定长度的文章的核心摘要.
●如果您认为此功能对您的网站运营或公司有用,请添加在线客户服务QQ并注明“ api”,我们会将您添加到该组.
●该功能目前处于试用阶段,仅适用于从新闻页面提取信息. 如果目标网站不是新闻文章页面或相册类型的文章,则文本提取结果可能不符合预期.