文章内容采集(亚洲四大美女的标签数据库中的数据数据查找方法)

优采云 发布时间: 2022-02-05 12:02

  文章内容采集(亚洲四大美女的标签数据库中的数据数据查找方法)

  文章内容采集时,需选择全局性的方式,也就是由每一类内容,依次放入到数据库中,方便以后进行查找。方案选择:最常见的方案是字典:插入到同一个数据库中,使用某些命令来进行数据的查找。举个例子,希望以“中国十大美女”的标签来查找“亚洲四大美女”的帖子,系统中首先会生成一个字典,把贴子标签号对应的十大美女标签数据,放到字典中,然后查找的时候,就根据字典中已经得到的标签来进行查找。

  举个例子,以获取“亚洲四大美女”的贴子为例,如下:代码在python中实现:#loaddatabasechecksets_list={'face':'wa','male':'ff','place':'china','sex':'male','point':'big','age':24}withopen('database.txt','w')asf_t:forclsinchecksets_list:#读取标签号的列表,创建的是字典,它有字典的方式存储字典中每一个字典中的字符串,每一个字典中的字符串都用来表示该数据库的存储字符串;并且两个字典中的字符串之间用逗号隔开,创建一个表示china,表示亚洲的字典;#创建主键字典config_axis='{''prefer_cap':'wa','''prefer_age':'pn','''follow_path':'ff'}'#插入数据withopen('checksets_list','w')asf_objs:#insertintochecksets_listintof_t*stringforindex,datainenumerate(checksets_list):#用python创建函数,以“-”来连接整个字典foriinf_objs:#把标签号的某个字符串放到主键字典里,如果主键字典里有的话foriinindex:ifi.div(['a','b','c'])[0]=='wa':#判断是否是天字,如果是天字,就不要加逗号ifnotint(i.div(['a','b','c'])[0])[0]=='wa':#如果没有,就加上逗号ifi.div(['a','b','c'])[0]!='wa':#如果是选择式的,则调用skip,如果选择式,则调用itemobjs.skip('s:',f_objs[i])#print(f_objs)#输出标签号f_t.concat(f_objs,[1])#合并字典为:s::wa:toarray()。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线