设计一个支持千万级用户的登录系统，需要考虑哪些点？

知识点图片

设计一个支持千万级用户（10M+ Users）的登录系统，不仅仅是写一个 SQL 查询那么简单。在这个量级下，系统需要兼顾安全性、高性能、高可用性、可扩展性以及用户体验。

以下是设计此类系统时必须考虑的核心要点，按优先级分类：

登录系统的首要任务是保护用户资产。

密码存储 (Password Storage)
- 绝对严禁明文存储。
- 哈希算法：不要使用 MD5 或 SHA-1（易被彩虹表破解）。应使用专为密码设计的慢哈希算法，如 bcrypt, PBKDF2, scrypt 或 Argon2。
- 加盐 (Salting)：每个用户必须有独立的随机 Salt，防止批量破解。
传输安全 (Transmission)
- 全站 HTTPS：强制使用 TLS/SSL 加密传输，防止中间人攻击（MITM）窃取账号密码或 Token。
防攻击机制 (Anti-Attack)
- 防暴力破解：限制同一 IP 或同一账号在单位时间内的失败尝试次数（如：5分钟内错5次锁定账号或弹出验证码）。
- 防撞库 (Credential Stuffing)：接入风控系统，识别异常 IP、异常设备指纹。
- SQL 注入：使用预编译语句（Prepared Statements）或 ORM 框架。
- XSS & CSRF：
  - Token 存放：如果是 Web 端，建议 HttpOnly Cookie（防 XSS） + CSRF Token（防 CSRF）。
  - 如果是 App 端，通常存放在 Header 中。
多因素认证 (MFA/2FA)
- 对于敏感操作或异地登录，强制要求短信验证码、邮箱验证码或 Google Authenticator (TOTP)。

千万级用户意味着可能有数十万的日活（DAU）和高并发的登录请求（尤其在活动期间）。

认证协议与状态管理
- Session vs JWT：
  - Session + Redis：适合需要强控制（如踢人下线、查看在线设备）的场景。千万级用户需要 Redis Cluster 来存储 Session。
  - JWT (JSON Web Token)：无状态，减轻服务端存储压力。但缺点是难以注销。
  - 推荐方案：双 Token 机制（Access Token 短效，Refresh Token 长效）。Access Token 用于鉴权，过期后用 Refresh Token 换新。Refresh Token 存数据库或 Redis，注销时只需废除 Refresh Token。
缓存策略 (Caching)
- 用户信息缓存：登录成功后，将用户的基本信息（ID、昵称、权限）缓存到 Redis，减少 DB 查库压力。
- 缓存一致性：修改密码或资料时，务必先更新 DB，再删除/更新缓存（Cache Aside Pattern）。
服务无状态化
- 登录服务（Auth Service）本身应是无状态的，以便于通过 Kubernetes (K8s) 进行水平扩容（HPA），应对流量洪峰。

千万级数据量对于单表来说已经是性能瓶颈的边缘。

分库分表 (Sharding)
- 单表瓶颈：MySQL 单表超过 500万~1000万行时，性能会下降。
- 策略：
  - 垂直分表：将 user_base (username, password, salt) 和 user_profile (avatar, address, bio) 分开。登录时只查 user_base，速度更快。
  - 水平分表：如果用户量预估会增长到亿级，需要按 UserID 取模进行分表（如分100张表）。
- 索引优化：确保 username、phone、email 等登录字段有唯一索引。
分布式 ID 生成
- 不要使用数据库自增 ID（容易暴露业务量，且不利于分库分表）。
- 使用 Snowflake (雪花算法) 生成全局唯一的、趋势递增的 UserID。
读写分离
- 主库负责写（注册、改密），从库负责读（登录查询）。注意主从延迟问题（注册完立即登录可能查不到），通常注册后的第一次登录强制走主库，或利用缓存。

登录是所有业务的入口，登录挂了全站皆瘫。

限流与降级 (Rate Limiting)
- 使用令牌桶或漏桶算法，在网关层（Nginx/Gateway）对登录接口进行限流，防止 DDoS 攻击打垮数据库。
异地多活/容灾
- 核心数据（用户库）需要有跨机房/跨地域的备份和同步机制。
熔断机制
- 如果依赖的第三方服务（如短信服务、社交登录接口）响应过慢，应触发熔断，避免拖死主线程，并提供降级方案（如提示“短信通道拥堵，请使用密码登录”）。

多端同步与单点登录 (SSO)
- 如果公司有多个子系统，需要设计 CAS 或 OAuth2.0 中心化认证服务，实现“一处登录，处处通行”。
多种登录方式
- 支持账号密码、手机验证码、邮箱链接、第三方 OAuth (微信/Google/Apple)、生物识别 (FaceID/TouchID)。
- 账号归一化：无论用什么方式登录，底层都映射到同一个 user_id。通常设计一个 auth_accounts 表来关联 user_id 和不同的 identifier (手机号、OpenID等)。

审计日志 (Audit Log)
- 记录所有登录行为：User ID、时间、IP、设备信息、登录结果（成功/失败原因）。这对于排查问题和安全审计至关重要。
异常监控
- 监控登录成功率、响应耗时（P99）、短信发送成功率。
- 设置报警阈值：例如“某 IP 1分钟内失败 100 次”或“整体登录成功率低于 95%”。

客户端 -> LB (负载均衡) -> API Gateway (限流/鉴权) -> Auth Service (登录服务)
Auth Service 交互：
- -> Redis (Session/Token/缓存/验证码)
- -> DB (用户数据，读写分离/分库分表)
- -> Risk Engine (风控识别)
- -> Message Queue (异步发送登录通知/写审计日志)

设计千万级用户的登录系统，难点不在于逻辑本身，而在于在高并发下的稳定性以及对抗恶意攻击的能力。

播面