【】文章采集软件的基本使用,数据库

优采云 发布时间: 2022-08-30 16:02

  【】文章采集软件的基本使用,数据库

  文章采集软件的基本使用,

  

  1、读取文本,读取文本的标准格式是pdf文件。

  2、采集所需的数据,这里采集得到的数据来自的是微信公众号【小工具社区】的数据。可以是关键词索引数据,也可以是语料库数据,语料库数据格式是csv数据。

  

  3、将数据导入到excel数据库,这里是使用的是navicat数据库。

  4、编写脚本操作,进行操作,将需要的数据自动写入到excel数据库。最终效果如下:接下来看一下代码:importthreadingimportjsonimportcsvfromcsvimportcsvdf=read_excel('d:\\社区\\新媒体人物\\*敏*感*词*号\\姓名.xlsx')ent=df['*敏*感*词*号']ifent=='*敏*感*词*号':ifent=='16开头'andent=='15开头':columns={'姓名':'{0}'.format(ent.split(''))}else:columns={'年龄':'{1}'.format(ent.split(''))}else:columns={'职位':'{2}'.format(ent.split(''))}else:columns={'收入':'{4}'.format(ent.split(''))}else:columns={'社区号':'{6}'.format(ent.split(''))}ifent=='16开头'andent=='15开头':ifint(ent.isnumeric())!=len(ent.locale('en').min())andent=='0':starts_with_entcolumns={'*敏*感*词*':'{1}'.format(ent.split(''))}else:columns={'姓名':'{0}'.format(ent.split(''))}else:columns={'性别':'{2}'.format(ent.split(''))}else:columns={'共同平台':'{3}'.format(ent.split(''))}else:columns={'职务':'{5}'.format(ent.split(''))}else:columns={'*敏*感*词*':'{6}'.format(ent.split(''))}else:columns={'社区':'','*敏*感*词*':''}ifent=='16开头'andent=='15开头':ifcolumns['社区']=='0':columns={'姓名':'{0}'.format(ent.split(''))}else:columns={'工作所在地':'{1}'.format(ent.split(''))}else:columns={'姓名':'{0}'.format(ent.split(''))}else:columns={'姓名':'{0}'.format(ent.split。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线