Python 比较文本相似性的方法(difflib,Levenshtein)

脚本专栏 2026/4/23 佚名

3 2 1

最近工作需要用到序列匹配，检测相似性，不过有点复杂的是输入长度是不固定的，举例为：

input_and_output = [1, 2, '你好', 世界', 12.34, 45.6, -21, '中国', '美丽']

其中，需要从input_and_output 中选取不固定长度的一段作为输入，且顺序不定，然后去与总体进行比较，找出最符合的，开始是对汉字进行数值化编码，不过后来由于出现汉字越来越多，遂放弃该方法，转向别的方式，查找资料发现了两个python包广被推荐，从下面来看各有优缺点，记录之~

1、difflib

import difflib #python 自带库，不需额外安装

In [49]: test1
Out[49]: ['你好', '我是谁']

In [50]: test2
Out[50]: ['你好啊', '我谁']

In [51]: test3
Out[51]: [12, 'nihao']

In [52]: test4
Out[52]: ['你好', 'woshi']

In [53]: difflib.SequenceMatcher(a=test1, b=test2).quick_ratio()
Out[53]: 0.0

In [54]: difflib.SequenceMatcher(a=test1, b=test4).ratio()
Out[54]: 0.5

2、Levenshtein

#pip install python-Levenshtein

import Levenshtein


In [56]: Levenshtein.distance(','.join(test1), ','.join(test2))
Out[56]: 2

In [57]: Levenshtein.distance(','.join(test1), ','.join(test4))
Out[57]: 5

简单来说，difflib使用时不一定为字符串，但匹配时只有单个元素完全匹配才计入，

而Levenshtein则需要输入为字符串，匹配时是整体匹配（也可能跟把所有元素集中成一个字符串有关，具体待继续使用再摸索）

以上这篇Python 比较文本相似性的方法(difflib,Levenshtein)就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

Python,文本相似性

标签：

Python,文本相似性

免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com

白云城资源网 Copyright www.dyhadc.com

评论“Python 比较文本相似性的方法(difflib,Levenshtein)”

Python 比较文本相似性的方法(difflib,Levenshtein)

暂无“Python 比较文本相似性的方法(difflib,Levenshtein)”评论...

P70系列延期，华为新旗舰将在下月发布

3月20日消息，近期博主@数码闲聊站透露，原定三月份发布的华为新旗舰P70系列延期发布，预计4月份上市。

而博主@定焦数码爆料，华为的P70系列在定位上已经超过了Mate60，成为了重要的旗舰系列之一。它肩负着重返影像领域顶尖的使命。那么这次P70会带来哪些令人惊艳的创新呢？
根据目前爆料的消息来看，华为P70系列将推出三个版本，其中P70和P70 Pro采用了三角形的摄像头模组设计，而P70 Art则采用了与上一代P60 Art相似的不规则形状设计。这样的外观是否好看见仁见智，但辨识度绝对拉满。

更新日志

2026年04月23日

Python 比较文本相似性的方法(difflib,Levenshtein)

Python,文本相似性

对Python 内建函数和保留字详解

便捷提取python导入包的属性方法

评论“Python 比较文本相似性的方法(difflib,Levenshtein)”

P70系列延期，华为新旗舰将在下月发布

更新日志

友情链接