Python+OpenCV批量裁剪xml格式图片
18岁小白想成大牛 人气:2前言
在目标检测中,数据集常常使用labelimg标注,会生成xml文件。本文旨在根据xml标注文件来裁剪目标,以达到去除背景信息的目的。
xml文件格式
以下是一个标注好的图片生成的xml文件。具体含义见代码注释。
<annotation> <!--xml所属文件夹--> <folder>JPEGImages</folder> <!--对应图片所属文件夹--> <filename>408.bmp</filename> <path>E:\JPEGImages\408.bmp</path> <source> <database>Unknown</database> </source> <size> <!--整张图片宽,高,3通道彩色--> <width>413</width> <height>342</height> <depth>3</depth> </size> <segmented>0</segmented> <object> <!--标注的目标,一共5个框--> <name>bad_part</name> <!--名称,也就是类别--> <pose>Unspecified</pose> <truncated>0</truncated> <difficult>0</difficult> <bndbox> <!--坐标,左上,左下,右上,右下--> <xmin>339</xmin> <ymin>103</ymin> <xmax>398</xmax> <ymax>173</ymax> </bndbox> </object> <object> <name>bad_part</name> <pose>Unspecified</pose> <truncated>0</truncated> <difficult>0</difficult> <bndbox> <xmin>265</xmin> <ymin>15</ymin> <xmax>364</xmax> <ymax>74</ymax> </bndbox> </object> <object> <name>bad_part</name> <pose>Unspecified</pose> <truncated>0</truncated> <difficult>0</difficult> <bndbox> <xmin>118</xmin> <ymin>33</ymin> <xmax>195</xmax> <ymax>52</ymax> </bndbox> </object> <object> <name>bad_part</name> <pose>Unspecified</pose> <truncated>0</truncated> <difficult>0</difficult> <bndbox> <xmin>113</xmin> <ymin>103</ymin> <xmax>177</xmax> <ymax>147</ymax> </bndbox> </object> <object> <name>bad_part</name> <pose>Unspecified</pose> <truncated>0</truncated> <difficult>0</difficult> <bndbox> <xmin>224</xmin> <ymin>298</ymin> <xmax>287</xmax> <ymax>326</ymax> </bndbox> </object> </annotation>
代码思想
- 获取到标签文件路径和图片文件路径;
- 遍历图片文件夹获取到图片,并分割文件名;
- 根据图片的文件名加后缀xml得到具体的标签文件;
- 通过xml.etree.ElementTree读取xml文件;
- 遍历所有的目标框,获取到[];
- 通过cv2裁剪目标(先高后宽 参考文章:https:中的第二中裁剪方法);
- 将裁剪好的图片保存到指定文件目录。
完整代码
''' 根据xml标签裁剪目标 1.文件夹中可以有除了图片格式或标签格式的文件,有判断可以忽略其他文件 2.图片未标注没有对应的xml文件自动忽略不会报错 3.同一个图片有多个真实框,会按名称_0,名称_1 …… 排列 4.图片本身的命名无规律会按3中的命名规则加上名称后缀重新命名。 ''' import cv2 import xml.etree.ElementTree as ET import os img_path = r'E:/JPEGImages' #图片路径 xml_path = r'E:/Annotations' #标签路径 obj_img_path = r'E:/cut' #目标裁剪图片存放路径 for img_file in os.listdir(img_path): #遍历图片文件夹 if img_file[-4:] in ['.bmp', '.jpg','.png']: #判断文件是否为图片格式 img_filename = os.path.join(img_path, img_file) #将图片路径与图片名进行拼接 img_cv = cv2.imread(img_filename) #读取图片 img_name = (os.path.splitext(img_file)[0]) #分割出图片名,如“000.png” 图片名为“000” xml_name = xml_path + '\\' + '%s.xml'%img_name #利用标签路径、图片名、xml后缀拼接出完整的标签路径名 if os.path.exists(xml_name): #判断与图片同名的标签是否存在,因为图片不一定每张都打标 root = ET.parse(xml_name).getroot() #利用ET读取xml文件 count = 0 #目标框个数统计,防止目标文件覆盖 for obj in root.iter('object'): #遍历所有目标框 name = obj.find('name').text #获取目标框名称,即label名 xmlbox = obj.find('bndbox') #找到框目标 x0 = xmlbox.find('xmin').text #将框目标的四个顶点坐标取出 y0 = xmlbox.find('ymin').text x1 = xmlbox.find('xmax').text y1 = xmlbox.find('ymax').text obj_img = img_cv[int(y0):int(y1), int(x0):int(x1)] #cv2裁剪出目标框中的图片 cv2.imwrite(obj_img_path + '\\' + '%s_%s'%(img_name, count) + '.jpg', obj_img) #保存裁剪图片 count += 1 #目标框统计值自增1 print("裁剪完成!")
效果展示
总结
- ET解析树基本上是xml标注文件必备的解析库。
- labelimg→ \rightarrow→xml→ \rightarrow→VOC数据集
- labelme→ \rightarrow→json→ \rightarrow→COCO数据集
- json是字典形式,内存小;xml是DTD文档,格式统一跨平台
- 去除背景信息是很重要的一环,可以避免模型监督学习时学习到相似的错误信息。
加载全部内容