这是一个创建于 3575 天前的主题,其中的信息可能已经有所发展或是发生改变。
# -*-coding: utf-8-*-
import re
import codecs
# To match Unicode Characters.
pattern = re.compile(r'[^a-zA-Z\W\d_]+',re.UNICODE)
with codecs.open('file', 'r', 'utf8') as f:
for line in f:
match = pattern.search(line)
# Yeah, it only matches the first group.
if match:
print match.group()