技巧:自动采集机在python中常见的或者抓包工具设置
优采云 发布时间: 2022-11-03 12:15技巧:自动采集机在python中常见的或者抓包工具设置
自动采集机在python中也是很常见的,很多比较好的爬虫或者抓包工具比如beautifulsoup、selenium都是可以实现它功能的。比如手工去手动采集很麻烦,而且也耗时;如果用爬虫的话,很多图片中包含很多信息难以下载到文件里,而自动采集的话则可以更有效率更灵活。一般常见的是通过pandas中的httplib包进行的,原理就是通过序列化一些文件,然后传给后台,这样就可以进行采集。
假设某个图片需要收集好多个exif,可以这样写代码importpandasaspdimportsyssys.setdefaultencoding('utf-8')filename=''print(filename)#pandas读取xxxfile#sys.setdefaultencoding('utf-8')#为filename进行设置,即对exif、jpg等格式,可以看得出filename是设置了一个list类型的一一对应,我觉得应该是在exif的构造函数里可以对于列表进行取元素操作。
#sys.setdefaultencoding('utf-8')#sys.setdefaultencoding('gbk')#print(filename)#。
使用pandas读取doc文件中的jpg图片:plt。read_csv('。/pandas/jpge。csv')将doc文件中的图片传入pandas内:importpandasaspdfilename='。/pandas/jpge。csv'file=sys。argv[0]index=[iforiinfileifiinfile。
is_null()]view=file。iteritems()base_image=pd。read_csv(index,encoding='utf-8')result=pd。dataframe(view)returnresult上面是传入两个dataframe对象,分别对应图片文件jpg_url和exif_url,分别对应图片名和文件名。