Python中怎么查找重复文件

今天就跟大家聊聊有关Python中怎么查找重复文件,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。

创新互联主要企业基础官网建设,电商平台建设,移动手机平台,小程序制作等一系列专为中小企业定制网站开发产品体系;应对中小企业在互联网运营的各种问题,为中小企业在互联网的运营中保驾护航。

Python查找重复文件主要思路如下:

1. 查找同命文件

2. 利用了crc32,先检查出同样尺寸的文件,再计算crc32,得出相同的文件名列表。

下面是转载的一个Python查找重复文件的代码,虽然可以满足要求,但是在查找大量文件时候,速度很慢,我抽空把它调优。

#!/usr/bin/env python  #coding=utf-8  import binascii, os  filesizes = {}  samefiles = []  def filesize(path):  if os.path.isdir(path):  files = os.listdir(path)  for file in files:  filesize(path + "/" + file)  else:  size = os.path.getsize(path)  if not filesizes.has_key(size):  filesizes[size] = []  filesizes[size].append(path)  def filecrc(files):  filecrcs = {}  for file in files:  f = open(file, "r")  23 crc = binascii.crc32(f.read())  24 f.close()  if not filecrcs.has_key(crc):  filecrcs[crc] = []  filecrcs[crc].append(file)  for filecrclist in filecrcs.values():  if len(filecrclist) > 1:  samefiles.append(filecrclist)  if __name__ == '__main__':  path = r"J:\My Work" filesize(path)  for sizesamefilelist in filesizes.values():  if len(sizesamefilelist) > 1:  filecrc(sizesamefilelist)  for samfile in samefiles:  print "****** same file group ******"  for file in samefile:  print file

看完上述内容,你们对Python中怎么查找重复文件有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注创新互联行业资讯频道,感谢大家的支持。


文章标题:Python中怎么查找重复文件
链接地址:http://pwwzsj.com/article/pohsco.html