如何用Python轻松分割大型文本文件:一个有效的文件处理脚本解析

如何用Python轻松分割大型文本文件:一个有效的文件处理脚本解析

首页角色扮演苍穹切割更新时间:2024-05-08

这段代码的核心功能是将一个大型文本文件(例如 .txt 格式)分割成多个较小的文件,每个文件包含指定数量的字符。这对于处理大型文本文件非常有用,特别是当文件太大以至于难以一次性处理或打开时。

import os def split_txt_file(file_path, max_chars, encoding='utf-8'): # 检查文件是否存在 if not os.path.exists(file_path): print("文件不存在,请检查路径") return try: with open(file_path, 'r', encoding=encoding) as file: content = file.read() except UnicodeDecodeError: return split_txt_file(file_path, max_chars, encoding='gbk') # 尝试使用GBK编码 # 获取文件的目录、文件名和扩展名 file_dir, file_name = os.path.split(file_path) file_base, file_ext = os.path.splitext(file_name) # 创建与原文件同名的新文件夹 new_folder_path = os.path.join(file_dir, file_base) if not os.path.exists(new_folder_path): os.makedirs(new_folder_path) parts = [] while content: part, content = content[:max_chars], content[max_chars:] parts.append(part) # 将分割后的内容保存到新文件夹中 for i, part in enumerate(parts): new_file_path = os.path.join(new_folder_path, f"{file_base}_{i 1}{file_ext}") with open(new_file_path, 'w', encoding=encoding) as file: file.write(part) # 使用示例 split_txt_file(r"D:\wenjian\临时\斗破苍穹.txt", 190000) # 这里90000是每个分割文件的字数 代码解析

  1. 函数定义: split_txt_file(file_path, max_chars, encoding='utf-8'): 这个函数用于分割文本文件。它接受三个参数:文件的路径(file_path),每个分割文件中的最大字符数(max_chars),以及文件的编码(默认为UTF-8)。
  2. 检查文件存在与否: 使用os.path.exists()判断指定路径的文件是否存在。
  3. 尝试读取文件内容: 使用open()函数打开文件,并尝试以指定的编码读取内容。如果读取时出现UnicodeDecodeError错误,则尝试用GBK编码重新读取。
  4. 获取文件信息并创建新文件夹: 提取文件的目录、基本名称和扩展名。 在文件所在目录创建一个新的文件夹,用于存放分割后的文件。
  5. 分割文本内容: 将文本内容分割成多个部分,每部分包含不超过max_chars指定的字符数。
  6. 保存分割后的文件: 遍历分割后的文本部分,将每部分保存为新文件。文件名包含原文件名和一个顺序编号。

代码的实际应用

这个脚本在多种场景下都非常有用,尤其是在需要处理大型文本文件的时候。例如:

应用场景
查看全文
大家还看了
也许喜欢
更多游戏

Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved