Python实现简单的excel对比工具

最近有小伙伴说需要一个工具,用来对比2个excel表的差异,直接标记出来有差异的行。

代码倒还挺简单的,为了方便小白使用,我给它打包成exe文件,点击执行即可输出结果。

1、先说一下怎么用,后面上代码

链接:https://pan.baidu.com/s/1oNEeIDOnw1Grw2MOdJrwUQ
提取码:w29l

先到网盘链接,下载文件:
如果不需要源代码,直接下载xlsx_compare.rar即可。

在这里插入图片描述
解压后打开:
这里面2个xlsx文件是我用来测试的文件,可以直接换成你自己的,必须是2个,不要放其他文件。

划重点:你的2个excel文件必须是xlsx格式的文件,且对比的内容放在Sheet1。
在这里插入图片描述
点击exe文件,结果如下:
在这里插入图片描述
会输出3份文件,第一个error_info.txt,就是执行过程中有报错的信息会写入到这文件里,运行正常的话里面写的是。
在这里插入图片描述
如果出现异常,例如你的2个对比文件忘记放进去了,error_info.txt就是这样的
在这里插入图片描述
另外2个new结尾的文件,就是对比的结果了,打开看看。
在这里插入图片描述
D列的数据因为长度超长,把它拉开就能看到内容了。
对比发现不一致的话,会在最后一列Compare Result标记
在这里插入图片描述
像这样的话,说明2个文件的第5、6、7行不一致,第8行是因为test1.xlsx没有第8行数据,而test2.xlsx有,因此也标记出来。

这样我们通过excel的筛选器过滤一下,就能得到2个文件不一致的所有行了
在这里插入图片描述

2、代码

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# date: 2021/4/17
# filename: xlsx_compare
# author: kplin

import pandas as pd
import os


def my_log(info):
    try:
        with open('error_info.txt', 'w+') as f:
            f.write(info)
            f.close()
    except Exception as e:
        print('写入错误日志时发生以下错误:\n%s'%e)


def get_file():
    try:
        # 获取当前文件夹下的2个文件
        dir_path = os.getcwd()
        files = os.listdir(dir_path)
        ret = []
        for i in files:
            if i.endswith('.xlsx') and not i.endswith('_new.xlsx'):
                ret.append(i)
            if i.endswith('.xlsx') and not i.endswith('_new.xlsx') and '~$' in i:
                info ='请关闭文件%s'%i
                my_log(info)
                return None
        if len(ret) == 0:
            info = '找不到待检测文件,请将2个xlsx文件放入此文件夹'
            my_log(info)
            return None
        # print(ret)
        return ret[0], ret[1]
    except Exception as e:
        my_log(str(e))



def main(file1, file2):
    try:
        # 1、获取原文件路径和名称,先准备即将生成的新文件名和文件路径
        fname1, ext = os.path.splitext(os.path.basename(file1))
        new_file1 = file1.replace(fname1, fname1 + '_new')

        fname2, ext = os.path.splitext(os.path.basename(file2))
        new_file2 = file2.replace(fname2, fname2 + '_new')

        # 2、读取文件
        df1 = pd.read_excel(file1)
        df2 = pd.read_excel(file2)

        length = len(df1) if len(df1) >= len(df2) else len(df2)


        # 两个数据块行数不一致,补成一致的
        if len(df1) - len(df2) > 0:
            # 获取DF1的列名
            d = {}
            for i in df2.columns:
                d[i] = ['' for x in range(len(df1) - len(df2))]
            concat_df = pd.DataFrame(d)
            df2 = pd.concat([df2, concat_df])

        if len(df2) - len(df1) > 0:
            d = {}
            for i in df1.columns:
                d[i] = ['' for x in range(len(df2) - len(df1))]
            concat_df = pd.DataFrame(d)
            df1 = pd.concat([df1, concat_df])


        dis_index = []

        for i in range(len(df1)):
            ret = df1.iloc[i, :]==df2.iloc[i, :]
            if False in ret.tolist():
                dis_index.append(i)

        dis_list = ['' for i in range(length)]
        for i in dis_index:
            dis_list[i] = '不一致'

        df1['Compare Result'] = dis_list
        df2['Compare Result'] = dis_list

        df1.to_excel(new_file1, index=False)
        df2.to_excel(new_file2, index=False)
        my_log('校验成功,本次对比文件为:%s%s 和 %s%s'%(fname1, ext, fname2, ext))
        print('校验完成,请查看新文件')
    except Exception as e:
        print('出现未知错误,请查看error_info.txt')
        my_log(str(e))

if __name__ == '__main__':
    if not get_file():
        print('读取文件时发生错误,请查看error_info.txt')
    else:
        file1, file2 = get_file()
        main(file1, file2)

总共有3个函数:

1、my_log函数用来写入日志。

2、get_file函数用来获取当前路径下所有后缀名为.xlsx的文件,会排除掉_new.xlsx文件,并且如果当前文件夹下有打开的excel文件,会自动结束运行,提示关闭当前文件夹下已被打开的excel文件。

3、main函数用来处理比对,并输出结果:
这里主要使用pandas读取数据并逐行对比,如果不一致,会记录下差异的位置,当检查完所有行后,给数据块加上一列Compare Result,把差异的行做一个标记,最后写入生成2个新文件。

依赖包都在requirements.txt里:
pandas 1.1.4
openpyxl 3.0.7
xlrd 1.2.0

可以直接pip install -r requirements.txt,直接下载安装依赖包。

逻辑很简单,但没有经过充分测试,可能遇到某些特殊情况会有其他报错,如果有的话,给我留言说明是什么情况导致的报错,有时间就改进一下。

热门文章

暂无图片
编程学习 ·

Java输出数组的内容

Java输出数组的内容_一万个小时-CSDN博客_java打印数组内容1. 输出内容最常见的方式// List<String>类型的列表List<String> list new ArrayList<String>();list.add("First");list.add("Second");list.add("Third");list.ad…
暂无图片
编程学习 ·

母螳螂的“魅惑之术”

在它们对大蝗虫发起进攻的时候&#xff0c;我认认真真地观察了一次&#xff0c;因为它们突然像触电一样浑身痉挛起来&#xff0c;警觉地面对限前这个大家伙&#xff0c;然后放下自己优雅的身段和祈祷的双手&#xff0c;摆出了一个可怕的姿势。我被眼前的一幕吓到了&#xff0c;…
暂无图片
编程学习 ·

疯狂填词 mad_libs 第9章9.9.2

#win7 python3.7.0 import os,reos.chdir(d:\documents\program_language) file1open(.\疯狂填词_d9z9d2_r.txt) file2open(.\疯狂填词_d9z9d2_w.txt,w) words[ADJECTIVE,NOUN,VERB,NOUN] str1file1.read()#方法1 for word in words :word_replaceinput(fEnter a {word} :)str1…
暂无图片
编程学习 ·

HBASE 高可用

为了保证HBASE是高可用的,所依赖的HDFS和zookeeper也要是高可用的. 通过参数hbase.rootdir指定了连接到Hadoop的地址,mycluster表示为Hadoop的集群. HBASE本身的高可用很简单,只要在一个健康的集群其他节点通过命令 hbase-daemon.sh start master启动一个Hmaster进程,这个Hmast…
暂无图片
编程学习 ·

js事件操作语法

一、事件的绑定语法 语法形式1 事件监听 标签对象.addEventListener(click,function(){}); 语法形式2 on语法绑定 标签对象.onclick function(){} on语法是通过 等于赋值绑定的事件处理函数 , 等于赋值本质上执行的是覆盖赋值,后赋值的数据会覆盖之前存储的数据,也就是on…
暂无图片
编程学习 ·

Photoshop插件--晕影动态--选区--脚本开发--PS插件

文章目录1.插件界面2.关键代码2.1 选区2.2 动态晕影3.作者寄语PS是一款栅格图像编辑软件&#xff0c;具有许多强大的功能&#xff0c;本文演示如何通过脚本实现晕影动态和选区相关功能&#xff0c;展示从互联网收集而来的一个小插件&#xff0c;供大家学习交流&#xff0c;请勿…
暂无图片
编程学习 ·

vs LNK1104 无法打开文件“xxx.obj”

写在前面&#xff1a; 向大家推荐两本新书&#xff0c;《深度学习计算机视觉实战》和《学习OpenCV4&#xff1a;基于Python的算法实战》。 《深度学习计算机视觉实战》讲了计算机视觉理论基础&#xff0c;讲了案例项目&#xff0c;讲了模型部署&#xff0c;这些项目学会之后可以…
暂无图片
编程学习 ·

工业元宇宙的定义与实施路线图

工业元宇宙的定义与实施路线图 李正海 1 工业元宇宙 给大家做一个关于工业元宇宙的定义。对于工业&#xff0c;从设计的角度来讲&#xff0c;现在的设计人员已经做到了普遍的三维设计&#xff0c;但是进入元宇宙时代&#xff0c;就不仅仅只是三维设计了&#xff0c;我们的目…
暂无图片
编程学习 ·

【leectode 2022.1.15】完成一半题目

有 N 位扣友参加了微软与力扣举办了「以扣会友」线下活动。主办方提供了 2*N 道题目&#xff0c;整型数组 questions 中每个数字对应了每道题目所涉及的知识点类型。 若每位扣友选择不同的一题&#xff0c;请返回被选的 N 道题目至少包含多少种知识点类型。 示例 1&#xff1a…
暂无图片
编程学习 ·

js 面试题总结

一、js原型与原型链 1. prototype 每个函数都有一个prototype属性&#xff0c;被称为显示原型 2._ _proto_ _ 每个实例对象都会有_ _proto_ _属性,其被称为隐式原型 每一个实例对象的隐式原型_ _proto_ _属性指向自身构造函数的显式原型prototype 3. constructor 每个prot…
暂无图片
编程学习 ·

java练习代码

打印自定义行数的空心菱形练习代码如下 import java.util.Scanner; public class daYinLengXing{public static void main(String[] args) {System.out.println("请输入行数");Scanner myScanner new Scanner(System.in);int g myScanner.nextInt();int num g%2;//…
暂无图片
编程学习 ·

RocketMQ-什么是死信队列?怎么解决

目录 什么是死信队列 死信队列的特征 死信消息的处理 什么是死信队列 当一条消息初次消费失败&#xff0c;消息队列会自动进行消费重试&#xff1b;达到最大重试次数后&#xff0c;若消费依然失败&#xff0c;则表明消费者在正常情况下无法正确地消费该消息&#xff0c;此时…
暂无图片
编程学习 ·

项目 cg day04

第4章 lua、Canal实现广告缓存 学习目标 Lua介绍 Lua语法 输出、变量定义、数据类型、流程控制(if..)、循环操作、函数、表(数组)、模块OpenResty介绍(理解配置) 封装了Nginx&#xff0c;并且提供了Lua扩展&#xff0c;大大提升了Nginx对并发处理的能&#xff0c;10K-1000K Lu…
暂无图片
编程学习 ·

输出三角形

#include <stdio.h> int main() { int i,j; for(i0;i<5;i) { for(j0;j<i;j) { printf("*"); } printf("\n"); } }
暂无图片
编程学习 ·

stm32的BOOTLOADER学习1

序言 最近计划学习stm32的BOOTLOADER学习,把学习过程记录下来 因为现在网上STM32C8T6还是比较贵的,根据我的需求flash空间小一些也可以,所以我决定使用stm32c6t6.这个芯片的空间是32kb的。 #熟悉芯片内部的空间地址 1、flash ROM&#xff1a; 大小32KB&#xff0c;范围&#xf…
暂无图片
编程学习 ·

通过awk和shell来限制IP多次访问之学不会你打死我

学不会你打死我 今天我们用shell脚本&#xff0c;awk工具来分析日志来判断是否存在扫描器来进行破解网站密码——限制访问次数过多的IP地址&#xff0c;通过Iptables来进行限制。代码在末尾 首先我们要先查看日志的格式&#xff0c;分析出我们需要筛选的内容&#xff0c;日志…
暂无图片
编程学习 ·

Python - 如何像程序员一样思考

在为计算机编写程序之前&#xff0c;您必须学会如何像程序员一样思考。学习像程序员一样思考对任何学生都很有价值。以下步骤可帮助任何人学习编码并了解计算机科学的价值——即使他们不打算成为计算机科学家。 顾名思义&#xff0c;Python经常被想要学习编程的人用作第一语言…
暂无图片
编程学习 ·

蓝桥杯python-数字三角形

问题描述 虽然我前后用了三种做法&#xff0c;但是我发现只有“优化思路_1”可以通过蓝桥杯官网中的测评&#xff0c;但是如果用c/c的话&#xff0c;每个都通得过&#xff0c;足以可见python的效率之低&#xff08;但耐不住人家好用啊&#xff08;哭笑&#xff09;&#xff09…