关于 Python 表达包含与被包含的语法

首先感谢各位大佬的耐心解答。但是新手看完回答后还是很懵。我改成一个实际的例子说明吧。

现在有两个 excel 。

excel A 的数据是 https://imgur.com/qv4tUV9
excel B 的数据是 https://imgur.com/0hLpmRJ

现在我需要用 A 去和 B 对照，找出两个表类类似的数据（就是 A 和 B 两个表中有的名字是完全一样的，有的是不完全一样的）。

我现在用的代码是
# -*- coding: utf-8 -*-
from __future__ import print_function

import xlrd

file1 = r'C:\Users\140082\Desktop\test_待检测数据.xlsx' # 待检测文件路径
file2 = r'C:\Users\140082\Desktop\test_对照表格.xlsx' # 对照文件路径

def compare(file1, file2):
nickName = [] # 存放所有不存在的数据在待检测表格中的索引
wb1 = xlrd.open_workbook(file1) # 打开待检测 xlsx 文件
wb2 = xlrd.open_workbook(file2) # 打开对照 xlsx 文件
sheet1 = wb1.sheet_by_index(0) # 参数 0 是索引，表示 wb1 这个文件的第一张表格
sheet2 = wb2.sheet_by_index(0) # 和上同理
for i in sheet1.col_values(0): #遍历 sheet1 中第一列每一项

if i in sheet2.col_values(0): #查看是否在 sheet2 第一列中

nickName.append(i)
return nickName #返回的是不存在于 sheet2 中的数据的第一列的值的列表
print(compare(file1, file2))

运行后，只有两个表完全一样的数据才输出了。怎么改进能得到我想要的结果呢？

语法

包含

aabbcc

abbc

38 条回复 • 2020-12-21 11:24:27 +08:00

destinism

2020-12-18 10:53:35 +08:00

B in A 吧

galileo1214

2020-12-18 10:55:22 +08:00

isin

whitefox027

2020-12-18 10:58:46 +08:00

if B in A :

kevinfk2

2020-12-18 10:59:17 +08:00

@destinism B in A 好像只能对比完全一致的两个数据，我想对比的是两个类似的数据。不知道用什么表达好

zeroDev

2020-12-18 11:00:44 +08:00 via Android

@kevinfk2 #4 就是这样用的，你自己试试

ly4572615

2020-12-18 11:01:26 +08:00

那用正则吧

kevinfk2

2020-12-18 11:01:45 +08:00

@galileo1214 我试试

ly4572615

2020-12-18 11:02:14 +08:00

或者 find()方法

kevinfk2

2020-12-18 11:07:04 +08:00

@ly4572615 不太会我找找用法试下先

destinism

2020-12-18 11:07:44 +08:00

@kevinfk2 那只能正则了

LiKanKan

2020-12-18 11:09:53 +08:00 via Android

A:str = "aabbcc"
B:str = "abbc"
if A.find(B) == -1:
#找不到为-1，如果找到则为第一个出现的位置
print("B is not in A")
else:
print("A contains B")

kevinfk2

2020-12-18 11:20:13 +08:00

@LiKanKan 那如果是对 list 而言的话，该怎么用啊

HashV2

2020-12-18 11:52:07 +08:00

@kevinfk2 如果你是只是想无序的判断 B 列表内所有的元素在不在另 A 列表中遍历就好了：
all([ele in A for ele in B])
如果想有序判断可以先在 A 中找到 B 的第一个元素的所有的索引
按照 B 的长度从索引切片后和 B 比较，如果有一个为真就是有序包含了

LiKanKan

2020-12-18 12:08:47 +08:00 via Android

@kevinfk2 如果是 List[str]可以用"".join(A 或 B)转化成上面一种情况。如果包含其他种类元素：如果连续有序，就手写子串匹配；如果不连续有序，就遍历 B，对着 A 的元素找；如果不连续也不有序，反之，对遍历 A 找 B

no1xsyzy

2020-12-18 12:38:56 +08:00

@HashV2 把方括号去掉获得空间和时间提升（ compl 换成 compg，不需要存储整个 list，第一个为 False 的地方直接退出）
当然，从可读性上来说，如果都是 hashable 的话，推荐 set(A) > set(B)

@kevinfk2 list 就是正常手写循环啊（
的确有双层 compg 的黑魔法，但可读性太垃圾了。

009694

2020-12-18 12:56:59 +08:00 via iPhone

为啥要用 find 不用 in 。。find 比 in 慢得多（从 js 转的还是 java 转的？

JeffGe

2020-12-18 13:19:26 +08:00

>>> A = [1, 1, 2, 2, 1, 1]
>>> B = [1, 2, 2, 1]
>>> str(B)[1:-1] in str(A)
True

kevinfk2

2020-12-18 14:28:06 +08:00

@LiKanKan 看了下还没弄明白，我加了附言，可能更方便你帮我解答，有时间的话帮我看看呗

ipwx

2020-12-18 14:42:51 +08:00

你需要某种字符串相似度计算的算法，比如编辑距离（ edit distance ）

https://leetcode.com/problems/edit-distance/
https://pypi.org/project/editdistance/0.3.1/

ipwx

2020-12-18 14:44:07 +08:00

在做一些根据先验知识的预处理。比如后缀“有限公司”或者“公司”就先全部删掉。

JeffGe

2020-12-18 14:47:23 +08:00 via Android

if any(i in s2 for s2 in sheet2.col_values(0)):

owtotwo

2020-12-18 14:48:44 +08:00 via Android

你得先定义什么是“相似” 再谈其他的

kevinfk2

2020-12-18 14:55:52 +08:00

@JeffGe 感谢大佬，出效果了十分感谢！

lanshee

2020-12-18 14:59:57 +08:00

if A in B or B in A 这样行不?

kevinfk2

2020-12-18 15:02:34 +08:00

@lanshee 好像不行吧我没试 in 好像都是查完全一致的才行

sudoy

2020-12-18 15:04:12 +08:00

我看你好像只遍历一个数据，两个都要遍历。

```
a = ['苹果', '橘子', '香蕉'， ‘葡萄’]
b = ['苹果', ‘越南橘’, '香蕉', '椰子']

c = []
for x in a:
for y in b:
if x == y:
c.append(x)
```

sudoy

2020-12-18 15:09:26 +08:00

或者

a = ['苹果', '橘子', '香蕉'， ‘葡萄’]
b = ['苹果', ‘越南橘’, '香蕉', '椰子']
c = [x for x in a if x in b]

c 应该就是你要找的

sudoy

2020-12-18 15:10:30 +08:00

>>> a = ['apple', 'orange', 'banana']
>>> b = ['apple', 'grape', 'banana']
>>> c = [x for x in a if x in b]
>>> c
['apple', 'banana']

sudoy

2020-12-18 15:20:20 +08:00

如果你要模糊匹配，可以为：

>>> a = ['apple', 'orange', 'banana']
>>> b = ['apple', 'grape', 'fresh banana']
>>> c = []
>>> for x in a:
...............for y in b:
........................if x == y or x in y:
...............................c.append(x)

lanshee

2020-12-18 15:21:02 +08:00

@sudoy 你这个少遍历了吧,这个是全量匹配了.他的需求应该是当前单词在不在另一组的单词里,而不是在另一组里

sudoy

2020-12-18 15:28:35 +08:00

@lanshee 嗯，我前面没看清楚，最后一个回复里面考虑到得了。不过这里面还有特殊字符的问题，另外还有可能要把名字拆开匹配，比如“某某公司”和“某某有限责任公司”属于同一家公司，那么就要把前面拆成四个字，后面拆成八个字，如果后面那八个字都包含前面四个字，就是满足条件