Python 深入浅出：uuid 模块与唯一标识符的科学选择

作者：XiaoZhang 时间：2026-06-29 阅读数：6人阅读

无论是在设计数据库主键、生成用户会话 Token、为上传的文件重命名，还是生成唯一的事务订单号，唯一标识符（UUID） 都是不可或缺的基石。

UUID（Universally Unique Identifier，通用唯一识别码）遵循 RFC 4122 标准，是一个 128 位的数字，通常表示为 32 个十六进制数字的 36 字符字符串（包含 4 个连字符，如 123e4567-e89b-12d3-a456-426614174000）。

Python 提供了官方内置的 uuid 模块，允许我们生成多个版本的 UUID。然而，UUID1、UUID3、UUID4、UUID5 各有其深层的生成机理，选型不当可能会导致隐私泄露、哈希碰撞甚至是严重的数据库性能衰退。

本文将带您科学地选择并使用 UUID 唯一标识符。

一、深入剖析四种 UUID 版本

内置的 uuid 模块提供了生成 1、3、4、5 四种版本 UUID 的方法（版本 2 是历史未定义的草案标准，已被废弃）：

1. UUID1：基于时间戳与 MAC 地址（物理地址）

机理：根据当前时间戳、时钟序列和网卡 MAC 地址生成。
致命风险（隐私泄露）：由于其包含了生成机器的 MAC 地址，黑客可以根据生成的 UUID1 逆向反推出你的网卡物理地址以及生成 UUID 的精准时间戳。在公网公开传输时，强烈建议禁用 UUID1。

2. UUID3：基于命名空间与名字的 MD5 哈希

机理：传入一个命名空间（如特定的 URL 或 DNS）和一个名字，利用 MD5 算法进行哈希计算。
特点（幂等性）：只要命名空间和名字相同，生成的 UUID 永远完全一致。
现状：由于 MD5 算法已经被证实存在碰撞风险，目前处于半废弃状态，推荐使用更安全的 UUID5。

3. UUID4：完全随机数（最常用首选）

机理：利用操作系统的密码学安全伪随机数生成器（CSPRNG，如 /dev/urandom）生成 122 位的随机数。
碰撞概率：生成 2 的 122 次方个 UUID 才会发生碰撞。概率极其微小，可以忽略不计。
适用场景：95% 的业务场景下的默认首选。

4. UUID5：基于命名空间与名字的 SHA-1 哈希

机理：工作原理与 UUID3 完全一致，但将底层的哈希算法升级为更安全的 SHA-1。
适用场景：需要根据某个特定输入（如用户名、设备 ID）生成固定且不重复的标识符。

二、核心 API 代码演示

import uuid

# 1. 生成 UUID1（包含 MAC 地址和精确时间）
id_v1 = uuid.uuid1()
print("UUIDv1:", id_v1)

# 2. 生成 UUID4（强随机数，最安全且通用）
id_v4 = uuid.uuid4()
print("UUIDv4:", id_v4)
print("UUIDv4 原始十六进制:", id_v4.hex)

# 3. 生成 UUID5（命名空间 + 名字，生成幂等 ID）
# 使用预定义的 DNS 命名空间
namespace_dns = uuid.NAMESPACE_DNS
id_v5 = uuid.uuid5(namespace_dns, "python.org")
id_v5_same = uuid.uuid5(namespace_dns, "python.org")

print("UUIDv5:", id_v5)
print("验证幂等性:", id_v5 == id_v5_same)  # 输出: True

三、数据库性能警告：UUID 作为主键的代价

在数据库（尤其是 MySQL InnoDB 引擎）中，主键索引通常是 B+ 树聚簇索引。它要求主键值是按顺序递增的，以便将新记录追加到树的末尾。

如果直接将无序的 UUID4 作为主键写入： 1. 索引分裂：由于 UUID4 的随机性，每次插入都是随机落入 B+ 树的某个叶子节点，导致频繁发生磁盘数据页分裂与重排。 2. 磁盘 IO 暴涨：随着表数据量增大，缓存无法装载全部索引，随机插入会导致极其猛烈的随机磁盘 IO 读写，插入性能呈断崖式下跌。

💡 破局方案：ULID 或趋势自增 ID

如果必须使用分布式唯一 ID 作为主键，建议使用 ULID（Universally Unique Lexicographically Sortable Identifier） 或 Snowflake（雪花）算法。 ULID 的前 48 位是毫秒级时间戳，后 80 位是随机数。由于时间戳在前，它天然支持字典序自增排序，既保证了全局唯一性，又完美解决了数据库插入时的索引分裂痛点。

pip install ulid-py

import ulid

# 生成字典序自增的 ULID
new_ulid = ulid.new()
print("ULID:", new_ulid)  # 如：01HXYZ...

四、总结

公开传输默认选 UUID4：安全随机，且不泄露服务器网卡隐私。
需要根据数据生成固定 ID，选 UUID5：命名空间 + SHA-1 哈希。
数据库主键慎用 UUID4：由于无序性会导致严重的聚簇索引碎片与性能滑坡，大表写入优先考虑 ULID。

选择对的标识符工具，能在保障系统隐私安全的同时，让底层数据结构发挥出最大效能！

本站所有文章、数据、图片均来自互联网,一切版权均归源网站或源作者所有。

如果侵犯了你的权益请来信告知我们删除。

上一篇：Python 中的协程 (Coroutines) 与 asyncio 异步编程从入门到精通

评论交流 (0)

正在加载评论...

Python 深入浅出：uuid 模块与唯一标识符的科学选择

一、深入剖析四种 UUID 版本

1. UUID1：基于时间戳与 MAC 地址（物理地址）

2. UUID3：基于命名空间与名字的 MD5 哈希

3. UUID4：完全随机数（最常用首选）

4. UUID5：基于命名空间与名字的 SHA-1 哈希

二、核心 API 代码演示

三、数据库性能警告：UUID 作为主键的代价

💡 破局方案：ULID 或趋势自增 ID

四、总结

评论交流 (0)

XiaoZhang

猜你喜欢

字符串创建有两种方式，这两种方式有何区别是什么

Java面试题请自己设计一个trim()方法

将字符串中某个子串反转，并返回新的字符串

统计一个字符串在另一个字符串中出现的次数

was cached in the local repository, resolution will not be reattempted until(解决IDEA)

微信商圈回调解密报错Tag mismath

腾讯云EKS一键部署k8s容器总结

Linux中了kdevtmpfsi挖矿病毒

Java程序员如何突破技术瓶颈

K8S安装(一)-基础环境配置

Python 深入浅出：uuid 模块与唯一标识符的科学选择

一、 深入剖析四种 UUID 版本

1. UUID1：基于时间戳与 MAC 地址（物理地址）

2. UUID3：基于命名空间与名字的 MD5 哈希

3. UUID4：完全随机数（最常用首选）

4. UUID5：基于命名空间与名字的 SHA-1 哈希

二、 核心 API 代码演示

三、 数据库性能警告：UUID 作为主键的代价

💡 破局方案：ULID 或 趋势自增 ID

四、 总结

评论交流 (0)

XiaoZhang

猜你喜欢

字符串创建有两种方式，这两种方式有何区别是什么

Java面试题请自己设计一个trim()方法

将字符串中某个子串反转，并返回新的字符串

统计一个字符串在另一个字符串中出现的次数

was cached in the local repository, resolution will not be reattempted until(解决IDEA)

微信商圈回调解密报错Tag mismath

腾讯云EKS一键部署k8s容器总结

Linux中了kdevtmpfsi挖矿病毒

Java程序员如何突破技术瓶颈

K8S安装(一)-基础环境配置

一、深入剖析四种 UUID 版本

二、核心 API 代码演示

三、数据库性能警告：UUID 作为主键的代价

💡 破局方案：ULID 或趋势自增 ID

四、总结