13.3 正则表达式的应用

登录 · 发表于 2026-2-10 10:08:30

接待来到我的博客，很高兴可以大概在这里和您见面！接待订阅相干专栏：
工💗重💗hao💗：野老杂谈
⭐️ 全网最全IT互联网公司口试宝典：网络整理全网各大IT互联网公司技能、项目、HR口试真题.
⭐️ AIGC期间的创新与将来：具体解说AIGC的概念、核心技能、应用范畴等内容。
⭐️ 全流程数据技能实战指南：全面解说从数据收罗到数据可视化的整个过程，把握构建当代化数据平台和数据堆栈的核心技能和方法。
⭐️ 构建全面的数据指标体系：通过深入的理论分析、具体的实操步调和丰富的案例分析，为读者提供体系化的引导，资助他们构建和应用数据指标体系，提拔数据驱动的决议程度。
⭐️《遇见Python：初识、相识与热恋》：涵盖了Python学习的根本知识、进阶本领和现实应用案例，资助读者从零开始渐渐把握Python的各个方面，并终极可以大概举行项目开发息争决现实标题。
择要

正则表达式（Regular Expression）是一种强大的文本处理处罚工具，广泛应用于数据洗濯、验证输入、文本搜索和更换等使命中。本文将通过一系列生动风趣的现实例子，带你深入相识正则表达式在一样寻常编程中的具体应用。无论你是处理处罚网页数据、验证用户输入，照旧举行批量文本更换，正则表达式都能为你提供高效、精准的办理方案。
目次

正则表达式简介
验证用户输入
- 验证电子邮件地点
- 验证电话号码
文本搜索与提取
- 从网页提取信息
- 匹配日期格式
文本更换
- 批量更换敏感词
- 尺度化数据格式
数据洗濯
- 删除多余空缺字符
- 提取和清算日志文件
总结

1. 正则表达式简介

如果你曾经在海量的文本中探求某个特定的单词，大概必要从一堆紊乱的数据中提取出有效的信息，那么你就会发现正则表达式是一种无比高效的工具。正则表达式允许你界说复杂的模式来匹配和利用文本数据，简直像是一位无所不能的文本邪术师。
想象一下，你是一位古代的抄书匠，手里有一本满是错误和涂改的古籍，而你的使命是把此中的错误都挑出来并修正。正则表达式就像是你的邪术卷轴，可以大概帮你轻松地完成这个使命。
在 Python 中，我们使用 re 模块来处理处罚正则表达式。让我们从一些简朴的例子开始，看看正则表达式怎样让你变成文本处理处罚的高手。
2. 验证用户输入

在处理处罚用户输入时，数据的格式准确性是紧张思量的。比方，用户提交的电子邮件地点和电话号码必须符合尺度格式，否则大概导致数据处理处罚堕落。
验证电子邮件地点

验证电子邮件地点是一个范例的应用场景。正则表达式可以大概快速查抄用户输入的邮箱是否有效：

import re
email_pattern = r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}"
email = "user@example.com"
if re.fullmatch(email_pattern, email):
print("Valid email address")
else:
print("Invalid email address")

复制代码

在这个例子中，我们界说了一个正则表达式模式来匹配常见的电子邮件地点格式。这个模式要求邮箱的用户名部分可以包罗字母、数字、点号、下划线、百分号、加号和减号，而邮箱的域名部分则由字母和数字构成，末了以一个点号和两到四个字母的顶级域末了。
验证电话号码

同样地，我们可以使用正则表达式来验证电话号码的格式：

phone_pattern = r"\b\d{3}[-.]?\d{3}[-.]?\d{4}\b"
phone_number = "123-456-7890"
if re.fullmatch(phone_pattern, phone_number):
print("Valid phone number")
else:
print("Invalid phone number")

复制代码

这个正则表达式模式允许匹配美国电话号码格式，它可以是带连字符或点的格式，也可以是没有分隔符的纯数字格式。
3. 文本搜索与提取

正则表达式在文本搜索和提取中也非常有效，特殊是在从网页数据或日志

文件中提取有效信息时。
从网页提取信息

假设你必要从一段 HTML 内容中提取全部的超链接（<a> 标签）：

html_content = '''
<a href="https://www.example.com">Example</a>
<a href="https://www.test.com">Test</a>
'''
links = re.findall(r'href="(https?://[^"]+)"', html_content)
print("Extracted links:", links)

复制代码

在这个例子中，正则表达式 href="(https?://[^\"]+)" 匹配全部的 href 属性，并提取此中的 URL。这里的 https? 体现匹配 http 或 https，而 [^\"]+ 体现匹配恣意数目的非双引号字符。
匹配日期格式

你大概必要从一段文本中提取全部的日期，比方格式为 YYYY-MM-DD 的日期：

text = "The event is scheduled for 2024-08-10 and the deadline is 2024-08-15."
dates = re.findall(r"\b\d{4}-\d{2}-\d{2}\b", text)
print("Found dates:", dates)

复制代码

这个正则表达式模式 \b\d{4}-\d{2}-\d{2}\b 匹配由四位数字体现的年份、两位数字体现的月份和两位数字体现的日期。
4. 文本更换

正则表达式不但可以查找和提取文本，还可以用来更换文本内容。比方，你可以使用它来举行批量的文本更换利用。
批量更换敏感词

假设你有一个文本文件，内里包罗了一些敏感词汇，而你想要将这些词汇更换为 ***：

text = "This is a secret message with sensitive information."
censored_text = re.sub(r"\bsecret\b|\bsensitive\b", "***", text)
print("Censored text:", censored_text)

复制代码

在这个例子中，正则表达式 \bsecret\b|\bsensitive\b 匹配单词 secret 或 sensitive，并将其更换为 ***。
尺度化数据格式

偶然，你必要对数据格式举行尺度化。比方，将一组电话号码格式化为同一的格式：

phone_numbers = ["1234567890", "123.456.7890", "123-456-7890"]
formatted_numbers = [re.sub(r"[^\d]", "-", number) for number in phone_numbers]
print("Formatted numbers:", formatted_numbers)

复制代码

在这个例子中，正则表达式 "[^\d]" 匹配全部非数字字符，并将其更换为 -，使电话号码格式同一。
5. 数据洗濯

数据洗濯是数据科学中不可或缺的一步，正则表达式在删除多余字符和提取有效信息方面大显武艺。
删除多余空缺字符

你大概必要清算文本中的多余空缺字符，使得文本内容更为整洁：

text = "This is an example text."
clean_text = re.sub(r"\s+", " ", text)
print("Cleaned text:", clean_text)

复制代码

在这个例子中，\s+ 匹配一个或多个空缺字符，并将它们更换为单个空格。
提取和清算日志

文件

正则表达式也可以用于从日志文件中提取有效的信息，比如 IP 地点：

log = "User accessed from IP 192.168.1.1 on 2024-08-10"
ip_pattern = r"\b\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}\b"
ip_address = re.search(ip_pattern, log)
if ip_address:
print("Found IP address:", ip_address.group())

复制代码

这个正则表达式模式 \b\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}\b 匹配常见的 IPv4 地点格式，并能从日志文件中提取这些地点。
6. 总结

正则表达式作为一种强大的工具，在文本处理处罚和数据洗濯中发挥了紧张作用。本文先容了一些常见的正则表达式应用场景，如用户输入验证、文本搜索与提取、文本更换和数据洗濯。通过学习这些内容，你可以在现实工作中机动运用正则表达式，进步代码的服从和正确性。

标签

正则表达式
Python
文本处理处罚
数据洗濯
编程本领

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！qidao123.com:ToB企服之家，中国第一个企服评测及软件市场,开放入驻,技术点评得现金

13.3 正则表达式的应用

本帖子中包含更多资源

温锦文欧普厨电及净水器总代理