Python如何对音视频文件进行解析详解
盆友圈的小可爱 人气:0前言
作为一个学完Python基础知识的测试,终于可以像RD们自己写脚本处理任何场景吧,如何优雅地写出来代码,接下来开启进阶版的Python。
在我们工作中,涉及的多媒体文件相关的测试,总逃不掉要使用工具查看多媒体文件相关的信息,上百次甚至上千次的打开关闭操作,工作是非常低效。
本期,我们一起来实现如何使用Python解析多媒体文件获取信息,一起来涨知识吧~
问题背景
当我们遇到进行多媒体测试,总会遇到各种各样不同编码、后缀、多音轨的多媒体文件。那么问题来,在这个测试过程我们总是打开多媒体文件-查看文件编码等信息,此过程如此往复。在测试一个项目下来,累计打开查看多媒体文件信息至少也有上百次~
- 在这里补充一下,通常对于多媒体测试来说,常用的分析工具是**MediaInfo**
- 是一款开源的多媒体分析工具
- 可以支持多种视频和音频文件格式
- 支持多种格式查看方式如xml、text、tree等
做测试真是体力活,惰性是提高工作效率的第一次动力,动动脑筋,在网上查找一番Python提供了关于多媒体解析的库pymediainfo库控制MediaInfo工具
2.安装依赖库
2.1 pymediainfo库
Pymediainfo 是专门对多媒体文件进行解析的开源第三方Python库,目前维护作者是Louis Sautier。可以支持Linux、MAC OS和Windows系统。
Pymediainfo 模块中调用mediaInfo工具,解析文件并返回详细信息->空白备注的信息。
2.2 安装pymediainfo库
- 第三方库,安装直接使用Python提供的pip工具
pip install pymediainfo
- 如果安装遇到下载失败,则可以添加其他服务器资源进行下载。如清华大学源
pip install pymediainfo -i http://pypi.tuna.tsinghua.edu.cn/simple
3. 测试解析效果
查看 pymediainfo 库源代码pymediainfo/init.py内容,可以看到pymediainfo主要有两个类:
- Track:从mediaInfo对象输出指定属性的值
- Medianfo:解析多媒体文件,获取详细信息
根据官网文档的介绍,简单使用pymediainfo库方法,解析movie1.mp4文件:
from pymediainfo import MediaInfo media_info = MediaInfo.parse(filename) print(media_info.to_json())
终端输出非常详细的信息,如下部分打印截图:
我们看到输出的内容是Json格式的,存在两个问题:
- 数据字段多
- 数据字段间距拥挤
介于以上问题,对解析的Json数据,要进行格式化处理输出,怎么做到输出形式如mediainfo 软件GUI效果一样呢?
4. 格式化解析信息
我们获取到的media_info信息,怎么格式化输出与GUI界面显示的一样的内容,最直接的思路大概如下:
查看JSON数据内容,多媒体文件信息主要包含三个部分:
- General:movie、music、picture必有
- Video:movie必带,music和picture无
- Audio:movie和music必带,picture无
- 三种类型的多媒体文件字段内容也不尽相同,其中movie文件字段最多
根据GUI上对每种文件展示详细内容字段,总体是一致的,可以使用map方式,将GUI上展示的字段名和JSON字段建立映射表output_type来存储。
获取到解析信息后,使用for循环将tracks所有属性字段, 根据创建output_type截取字段来进行打印输出到new_file文件中。
在此过程中,当指定的字段值为None时,则进行跳过。
注:mediaInfo GUI界面 text展示的是左对齐,因此可以使用format格式输出
"{key1:[填充字符][对齐方式][宽度]}".format(key1) # *<40:左对齐,总共40个字符,不够用*填充 # *>40:右对齐,总共40个字符,不够用*填充 # *^40:居中,总共40个字符,不够用*填充
根据以上思路,代码就非常容易实现啦demo代码如下
终端打印效果如下所示:
5. 批量解析操作
回到开头我们面对一堆的多媒体文件需要查看分析详情的时候,大概的解决思路如下:
- 我们可以继续使用os.path模块获取指定目录下所有多媒体文件列表media_files。
遍历将每个mediafile使用mediainfo方法解析出信息mediainfo.to_json()存储在list中,为什么不每一次解析内容就写入到文件中,原因如下:
每次解析后频繁打开写入文件操作,消耗系统资源
对于mediainfo内容还需要进行格式化后内容写入到目标文件中
- 将统一的格式化内容一一写入到指定文件中,可以为后续查找和分析提供资料
6. 总结
本期,我们在工作遇到要频繁地查看和查找多媒体文件信息,学习到了使用python中第三方库pymediainfo模块便捷快速解析指导的多媒体文件。
根据不同场景和需求,个性化解析出想要的多媒体详细信息,提高我们工作效率,更多的时间学习其他新知识啦~
加载全部内容