9.1 文件后缀名及用途¶

在数据挖掘和 Python 编程中,我们常处理不同类型的文件。掌握文件后缀名有助于高效地组织和处理数据。

9.1.1 常见文件类型说明¶

  1. TXT (.txt):纯文本文件,常用于存储简单文本。

  2. CSV (.csv):逗号分隔值文件,用于存储表格数据。

  3. XLSX (.xlsx):Excel 文件,支持复杂格式和公式。

  4. JSON (.json):键值对数据格式,适合嵌套数据与交互。

  5. PDF (.pdf):用于文档发布和阅读,格式固定。

  6. DOCX (.docx):Word 文档,支持文本、图片、表格等元素。

  7. 图像文件 (.jpg/.png):常见的图片格式,适用于可视化展示。

表9.1 文件类型及用途¶

文件类型 文件后缀名 主要用途
纯文本文件 .txt 文本数据存储与处理
逗号分隔值文件 .csv 表格和结构化数据存储
Excel表格文件 .xlsx 结构化数据的存储与分析
JSON数据文件 .json 数据交换与配置存储
PDF文档 .pdf 跨平台文档分发与阅读
Word文档 .docx 文档编辑与格式化内容存储
图像文件 .jpg/.png 图像存储与展示

9.1.2 常见文件后缀名及其类型总结¶

表9.2 不同文件类型及其用途¶

文件类型 常见后缀名 说明
文本文件 .txt 纯文本文件,通常用于存储无格式文本。
.doc, .docx Microsoft Word 文档文件,.docx 是基于 XML 的格式。
.pdf 便携式文档格式(Portable Document Format),用于跨平台显示文档。
电子表格 .xls, .xlsx Microsoft Excel 电子表格文件,.xlsx 是基于 XML 的格式。
.csv 逗号分隔值文件,用于存储表格数据。
图像文件 .jpg, .jpeg JPEG 图像文件,支持高压缩比的静态图像。
.png 便携式网络图形文件,支持无损压缩和透明背景。
.gif 图形交换格式文件,支持动画和透明背景。
.bmp 位图图像文件,通常未压缩,文件较大。
.svg 可缩放矢量图形文件,基于 XML 的矢量图像格式。
音频文件 .mp3 MPEG 音频层 III 文件,广泛用于音乐和音频存储。
.wav 波形音频文件,通常未压缩,音质较高。
.flac 无损音频压缩文件,音质高且文件较小。
.aac 高级音频编码文件,常用于苹果设备。
视频文件 .mp4 MPEG-4 视频文件,广泛用于存储视频和音频。
.avi 音频视频交错文件,常见的视频容器格式。
.mkv Matroska 视频文件,支持多种编码和多轨道。
.mov QuickTime 视频文件,常用于苹果设备。
压缩文件 .zip ZIP 压缩文件,支持多文件压缩和加密。
.rar RAR 压缩文件,支持高压缩比和分卷压缩。
.7z 7-Zip 压缩文件,支持高压缩比和多种压缩算法。
.tar.gz TAR 和 GZIP 组合压缩文件,常用于 Linux 系统。
可执行文件 .exe Windows 可执行文件,用于运行程序。
.dmg macOS 磁盘映像文件,用于安装应用程序。
.sh Shell 脚本文件,用于在 Linux/Unix 系统上运行命令。
编程文件 .py Python 脚本文件。
.java Java 源代码文件。
.cpp, .c C/C++ 源代码文件。
.html, .htm 超文本标记语言文件,用于网页开发。
.css 层叠样式表文件,用于定义网页样式。
.js JavaScript 脚本文件,用于网页交互。
数据库文件 .sql SQL 脚本文件,用于数据库操作。
.db, .sqlite SQLite 数据库文件,轻量级嵌入式数据库。
.mdb, .accdb Microsoft Access 数据库文件。
配置文件 .ini 初始化配置文件,用于存储程序配置。
.json JSON 格式文件,用于数据交换和配置存储。
.xml XML 格式文件,用于数据存储和传输。
.yaml, .yml YAML 格式文件,用于配置文件和数据序列化。
In [ ]: