文章内容采集(亚洲四大美女的标签数据库中的数据数据查找方法)

优采云发布时间: 2022-02-05 12:02

　　文章内容采集时，需选择全局性的方式，也就是由每一类内容，依次放入到数据库中，方便以后进行查找。方案选择：最常见的方案是字典：插入到同一个数据库中，使用某些命令来进行数据的查找。举个例子，希望以“中国十大美女”的标签来查找“亚洲四大美女”的帖子，系统中首先会生成一个字典，把贴子标签号对应的十大美女标签数据，放到字典中，然后查找的时候，就根据字典中已经得到的标签来进行查找。

　　举个例子，以获取“亚洲四大美女”的贴子为例，如下：代码在python中实现：#loaddatabasechecksets_list={'face':'wa','male':'ff','place':'china','sex':'male','point':'big','age':24}withopen('database.txt','w')asf_t:forclsinchecksets_list:#读取标签号的列表，创建的是字典，它有字典的方式存储字典中每一个字典中的字符串，每一个字典中的字符串都用来表示该数据库的存储字符串；并且两个字典中的字符串之间用逗号隔开，创建一个表示china，表示亚洲的字典；#创建主键字典config_axis='{''prefer_cap':'wa','''prefer_age':'pn','''follow_path':'ff'}'#插入数据withopen('checksets_list','w')asf_objs:#insertintochecksets_listintof_t*stringforindex,datainenumerate(checksets_list):#用python创建函数，以“-”来连接整个字典foriinf_objs:#把标签号的某个字符串放到主键字典里，如果主键字典里有的话foriinindex:ifi.div(['a','b','c'])[0]=='wa':#判断是否是天字，如果是天字，就不要加逗号ifnotint(i.div(['a','b','c'])[0])[0]=='wa':#如果没有，就加上逗号ifi.div(['a','b','c'])[0]!='wa':#如果是选择式的，则调用skip,如果选择式，则调用itemobjs.skip('s:',f_objs[i])#print(f_objs)#输出标签号f_t.concat(f_objs,[1])#合并字典为：s::wa:toarray()。

0

2022-02-05

文章内容采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章内容采集(亚洲四大美女的标签数据库中的数据数据查找方法)

0 个评论

发起人

AI时代内容工厂

文章内容采集(亚洲四大美女的标签数据库中的数据数据查找方法)

0 个评论

发起人

相关问题