Skip to content

云服务与互联网基础常识总览:为什么应用工程师必须看懂账单和套餐

工程师对「云服务」最大的误解,是把它当成「运维和 SRE 的事」——你只管把代码 push 上去,Vercel / Cloudflare / 阿里云会处理剩下的;DNS、HTTPS、CDN、对象存储、Serverless 这些词「听过就行」,真正用到的时候再查文档。这种想法是被 PaaS 一键部署的市场话术长期养出来的幻觉。真相是:任何一个独立开发者、SaaS 创始人、做边项目的应用工程师,在 2026 年都要在 30 分钟内做一个有 5-10 个云服务的部署决策——免费套餐够不够用?Vercel 还是 Cloudflare Pages?对象存储放阿里云 OSS 还是 Cloudflare R2?需不需要 WAF?DNS 该不该托管?证书要不要自己续?这些决策每一个都直接关系到你能不能上线、上线后会不会被一次流量打爆账单、被一次配置错误导致全站 404

一句话先记住:云服务不是一项技能,是一套常识。它不要求你能背 AWS 全部产品代号,但要求你看到一个套餐页、一张架构图、一份账单、一次故障公告时,能立刻知道它在说什么、影响哪一层、风险在哪里、有没有更便宜的替代这个系列教你建立的就是这套常识——它不深、但它齐;不专、但它能帮你避开 80% 的初学者坑;不绑定任何一个厂商,但让你看任何厂商的产品页都能立即定位它的位置。做不到这一点,你就只能被云厂商的市场文案牵着走,而账单和故障会教你做人


一、为什么应用工程师必须懂云服务常识

1.1 三个让独立开发者破防的真实场景

场景 1:Vercel 部署的小项目,月底收到 $80 账单

你用 Next.js 写了一个边项目,推到 Vercel,绑了自己的域名
首页一个看起来人畜无害的「最近文章」组件,用了 SSR
没流量的时候它和静态站没区别,你以为「Vercel 免费套餐够了」

然后某天:
  - 一个抖音/小红书博主提到了你的项目
  - 12 小时内涌入 2 万 UV
  - 你睡着的时候 Vercel 一直在跑 Serverless 函数
  - 每个 SSR 请求 = 一次 Function Invocation
  - 每次 Function Invocation 还会调 1-2 个 API 路由
  - 加上图片优化用了 Image Optimization
  - 加上 ISR 重新生成

月底账单:
  - Function Invocations 超额:$30
  - Image Optimization 超额:$25
  - Bandwidth 超额:$15
  - Build Minutes 超额:$10
  
你心想:不是说「免费套餐」吗?
打开账单细则:免费套餐只对 Hobby 计划,且超过额度自动切到付费
  
你做错了什么?
  - 没把 ISR 改成 SSG
  - 没在用户没图片需求的页面禁用 Image Optimization
  - 没给账户设预算告警
  - 完全不知道 Vercel 的「免费」是按四五个独立维度算的

这个场景的核心不是「Vercel 黑心」——而是你根本不知道一个 Serverless 平台的免费套餐被切成了多少独立维度:函数调用次数、构建分钟、出站流量、图片优化、ISR 重新生成、KV / Postgres 调用数⋯⋯它们每一个都有独立额度,任何一个超了都会单独计费所有「我用免费套餐就够」的应用工程师,都在等这一个月

场景 2:域名买了一年,网站访问不了

你在阿里云买了一个 .com 域名,跟着教程操作
  - 注册成功:邮件收到
  - 实名认证:通过
  - DNS 设置:加了 A 记录指向你 Vultr 上的 VPS
  - 浏览器打开:DNS_PROBE_FINISHED_NXDOMAIN

你 ping 域名:不通
你 dig 域名:返回 SERVFAIL
你 dig +trace 域名:发现根 DNS 把你指向了阿里云的权威 DNS
  阿里云的权威 DNS 返回:NXDOMAIN

你打电话给阿里云客服:
  - 客服 A 说「域名解析需要 24-72 小时生效」(你已等 7 天)
  - 客服 B 说「请检查 NS 记录」(你不知道 NS 是什么)
  - 客服 C 说「您是不是改了 DNS 服务商但没改注册局的 NS」(没听懂)

最后你才发现:
  - 你在「云解析」里加了 A 记录
  - 但你在「域名管理」里把 NS 改成了 Cloudflare
  - 根 DNS 看到的 NS 是 Cloudflare,所以根本不去查阿里云的 A 记录
  - Cloudflare 那边你又没有任何记录,直接返回不存在

这个场景暴露的是「DNS 不是一个东西」——它包含注册局、注册商、注册商的 DNS、第三方权威 DNS、递归 DNS至少五层,每一层错一个地方都会让网站不通。而每一层的概念都是云服务的入门常识——但 99% 的初学者只会跟着「教程」操作,根本不知道自己在哪一层踩到了坑。这种坑不需要你成为网络专家,只需要你知道「DNS 解析是分层的、域名注册和 DNS 托管是两件事」——一句话的常识,能省你三天客服扯皮。

场景 3:数据库连接池打满,Serverless 函数全部 timeout

你的 SaaS 用了:
  - Vercel(前端 + API Routes)
  - Supabase(Postgres 数据库 + Auth)
  - 全免费套餐

平时 100 DAU,一切正常
某天有人在 Twitter / 推特上发了你的产品截图
半天涌入 5000 用户,每人打开就触发 10 次 API 请求

突然所有请求开始 timeout
你打开 Vercel 日志:
  - "Connection terminated due to connection timeout"
  - "Too many connections"
  - "FATAL: remaining connection slots are reserved for non-replication superuser connections"

Supabase 免费套餐:max_connections = 60
你的 API:每次请求新建一个 Postgres 连接
高峰时:5000 用户 × 平均 2 并发 = 10000 个连接尝试
60 个槽位瞬间用光,后面全部排队 / 失败

你的应用对外表现:全站 502 / timeout
你的用户体验:点了登录,白屏 30 秒
你的获客成本:一次免费 Twitter 流量,全部浪费
你的解决方案:升级 Supabase 到 Pro($25/月),max_connections = 200
  以及加上 PgBouncer connection pooler
  以及把 API 改成连接池复用模式
  
但这一切发生在你已经丢了 5000 个潜在用户之后

这个场景的核心不是「Supabase 卡」——而是你完全不知道「免费套餐」三个字背后藏着多少硬性边界:数据库最大连接数、对象存储 PUT/GET 次数、Serverless 函数最大执行时间、CDN 缓存命中率、CI 构建分钟⋯⋯每一个都是一道「玻璃天花板」,平时撞不到、用户多了一倒头就出事。所有「我先免费用,等流量来了再升级」的人,都在赌不会被流量打爆——而**「被流量打爆」恰恰是创业最想要的事**,你不能为它准备好,就等于在最关键的时刻把自己 KO。

1.2 这三个场景的共同点

不是"产品不够好"               —— Vercel / Cloudflare / Supabase 都很好
不是"工程师不够强"             —— 都是写代码很熟练的人
不是"运气不好"                 —— 一年总会遇到一次

是"对云服务这一层完全没有心智模型":
   —— 不知道"免费套餐"被切成哪几个独立维度
   —— 不知道一次 HTTP 请求穿过几个云组件
   —— 不知道哪些限制是"软限制"(超了多收钱),哪些是"硬限制"(超了直接报错)
   —— 不知道一份架构图里哪一层是自己负责、哪一层是云厂商负责
   
   你不是不会写代码,你只是把"上线"当成了一次性事件
   而上线之后,云这一层会一直在那儿,日夜不停地用账单、告警、超额提醒你

这就是云服务常识要解决的问题:让你看任何一个云产品页、任何一份架构图、任何一份账单时,都能立刻定位它在哪一层、限制在哪里、风险点是什么、超额怎么计这不是 SRE 知识,这是应用工程师的基础常识——就像写代码必须懂 git、懂 SQL 一样,2026 年的工程师必须懂「云这一层是怎么收费、怎么限流、怎么挂掉」的。

1.3 不是"云服务 vs 自建",是"看懂你正在用的云服务"

最常见的反驳是「我用 Cloudflare 全免费,根本不用懂这些」——这个想法本身就反过来证明你必须懂:

你"什么都不懂"的成本,99% 由云厂商替你掩盖了
但当那 1% 的事件发生时(账单暴涨 / 流量被切 / 数据库挂掉),
你完全没有应对能力,只能去 Twitter / 客服 / GitHub Issue 上求救

懂常识 vs 不懂常识的真实差异:

不懂的人遇到流量暴涨:
   - 收到账单震惊
   - 上 Twitter 抱怨"被 Vercel 收割了"
   - 临时切到其它平台,损失用户体验
   - 半年后再遇一次,重复以上

懂常识的人遇到流量暴涨:
   - 在部署前就给账户加了预算告警
   - 在选套餐时就算了 worst-case 月成本
   - 看到流量暴涨先看 CDN 缓存命中率(可能 90% 流量根本不该回源)
   - 知道把图片优化关掉、ISR 关掉、用静态化能省 80% 的钱
   - 提前在 DNS 这一层加了缓存,知道源站故障时切到静态页

云服务常识是「保险」:你不出事它没用,出事的时候它救你的命比起学会写更精巧的代码、用更新的框架,补齐云这一层的常识是 ROI 最高的事——因为代码错了你可以回滚,云配置错了可能让你一晚上烧掉一个月工资。

而且,云服务这一层在 2026 年还在快速分化和兼并——CDN、对象存储、Serverless、边缘计算这些产品的边界越来越模糊,Cloudflare R2 是对象存储但走 CDN 出口,Vercel Edge Functions 是 Serverless 但跑在 CDN 节点上,Supabase 是数据库但提供 RESTful API⋯⋯你越懂底层概念,这些"组合产品"在你眼里就越透明;你越不懂,就越被它们的市场命名迷惑这是云服务常识在 2026 年比 2018 年更重要的原因——产品越融合,底层常识越保值


二、云服务常识 vs 「我会用 AWS」 的真实分工

把这套讲完整,得到一张「常识 vs 操作」的对照表——这张表你要在白板上能默写:

┌──────────────────────────────────────────────────────────────────┐
│                  "我会用 AWS / 阿里云"擅长                         │
├──────────────────────────────────────────────────────────────────┤
│  ✓ 知道在控制台哪里点哪个按钮                                       │
│  ✓ 知道 EC2、S3、RDS、CloudFront 的具体名称                       │
│  ✓ 会用某个厂商的 CLI / SDK                                       │
│  ✓ 能跟着官方教程一步步部署                                         │
│  ✓ 在这一家厂商内能闭环工作                                         │
└──────────────────────────────────────────────────────────────────┘

┌──────────────────────────────────────────────────────────────────┐
│                  "云服务常识"擅长                                   │
├──────────────────────────────────────────────────────────────────┤
│  ✓ 看到任何厂商的产品页,能映射到通用概念                            │
│  ✓ 能算出一个架构在不同厂商的预期成本                                │
│  ✓ 能在 5 分钟内判断"这个免费套餐我能用多久"                         │
│  ✓ 能从一份账单中找出最大开销并优化                                   │
│  ✓ 能从一次故障公告中判断"我会不会被波及"                            │
│  ✓ 能在 Cloudflare → Vercel → AWS 三家之间切换并理解差异            │
│  ✓ 能跟同事 / 客户讨论架构时使用准确术语                              │
│  ✓ 能在不写代码的情况下,光看架构图找出性能瓶颈                         │
└──────────────────────────────────────────────────────────────────┘

结论:「我会用 AWS」是技能,云服务常识是认知。技能贬值快(三年后你今天会的 AWS 控制台可能 80% 已经改版),认知保值长(DNS / CDN / SLA / IAM 这些概念已经稳定 15-20 年)。应用工程师应该先有认知,再按需补技能——而不是反过来,被某一家厂商的具体操作绑住认知。

"我会用 AWS"                  → 一项技能,可以临时学,3-7 天上手
"我有云服务常识"               → 一套认知,需要建立框架,3-6 个月内化
"我有云服务常识 + 用过 1-2 家" → 应用工程师的合格基线
"我有云服务常识 + 跨 3 家做选型" → 创业 / 独立开发的真正护城河

注意一个反直觉点:很多人以为「云服务常识」需要先学完「具体某个厂商」才能建立——实际上是反过来。如果你先学 AWS 全套(这至少需要半年到一年),你会被它的具体术语绑死,看 Cloudflare / GCP 时就需要从头开始。先建立通用概念,再把任何一家厂商当成"具体实现"去对照,你的迁移成本就降到接近零——这就是这个系列要给你的能力。

2.1 这个系列不是什么

为了不让你期望落空,先把这个系列不是什么讲清楚:

✗ 不是 AWS Certified Solutions Architect 备考材料
   不教考试,不背产品代号,不练实验

✗ 不是 SRE 入门
   不教告警系统怎么设计、SLO 怎么定 budget、事故复盘怎么做
   只讲应用工程师"看懂"这些概念时需要的常识

✗ 不是某家厂商的操作手册翻译
   不教"如何在 AWS 控制台创建 EC2"、"如何在阿里云购买 OSS"
   只讲"EC2 / OSS 是什么、什么时候用、有什么限制"

✗ 不是网络协议教程
   TCP / HTTP / TLS 的细节去 networkLearning 系列
   本系列只在涉及 DNS / HTTPS / CDN 时点一下应用工程师必须知道的部分

✗ 不是 Kubernetes / Docker 教程
   容器和编排去 backendLearning / devopsLearning
   本系列 11-12 只讲"容器 / K8s 作为云产品"的概念位置和成本边界

✗ 不是面试题宝典
   不会写"99% 大厂面试题汇总"这种东西
   面试用得上的细节会出现,但不是主线

那这个系列是什么?

✓ 一个应用工程师面对"上线一个网站 / SaaS"时,需要的通用常识地图
✓ 一份能让你 5 分钟看懂任何云产品页的"翻译手册"
✓ 一组能让你避开 80% 初学者坑的"红线提示"
✓ 一套"通用概念 + 真实场景"的对照表,看完后任何厂商的产品都不再陌生

三、42 篇地图:五层结构

把整个系列的 42 篇按层组织,也可以按你目前的痛点跳读。先看一张全景图:

┌─────────────────────────────────────────────────────────────────┐
│ 第五层:计费、免费套餐与选型(34-42)                              │
│   计费模型 / 免费额度拆解 / 账单与预算 / 主流套餐对比             │
│   "为什么我月底账单是 $80"的根因和护栏,9 篇                       │
├─────────────────────────────────────────────────────────────────┤
│ 第四层:安全、身份与权限(26-33)                                  │
│   账号 / IAM / API Key / OAuth / CORS / 防刷 / 合规 / 责任共担   │
│   "云厂商负责什么、你负责什么"的边界,8 篇                          │
├─────────────────────────────────────────────────────────────────┤
│ 第三层:稳定性、可观测性与恢复(18-25)                            │
│   SLA / 性能指标 / 监控 / 告警 / 日志 / 备份 / 容灾                │
│   "网站会挂、数据会丢"的工程心态,8 篇                              │
├─────────────────────────────────────────────────────────────────┤
│ 第二层:云资源与部署模型(09-17)                                  │
│   服务器 / VPS / 容器 / K8s / Serverless / 静态托管 / 对象存储 / DB │
│   "代码怎么变成在线服务"的资源抽象,9 篇                            │
├─────────────────────────────────────────────────────────────────┤
│ 第一层:互联网入口与访问链路(01-08)                              │
│   总览(本篇) / 域名 / DNS / IP+HTTP / HTTPS / CDN / 反代 / WAF │
│   "用户输入 URL 到看见页面"中间的所有云组件,8 篇                    │
└─────────────────────────────────────────────────────────────────┘

3.1 每层学完能解决什么

第一层(01-08):
   学完能在白板上回答:
   - "用户输入 URL 到看见页面,中间穿过哪些云组件"
   - "DNS 解析为什么有时候要等一天,有时候 30 秒就生效"
   - "Cloudflare 的 SSL/TLS 模式 Flexible / Full / Strict 到底有什么区别"
   - "CDN 命中率从 60% 提到 95% 能省多少回源带宽费"
   - "WAF 拦得住 SQL 注入,拦得住业务逻辑漏洞吗"
   解决:对"互联网入口"这一层有完整心智,不会在 DNS / HTTPS / CDN 配置上花一周

第二层(09-17):
   学完能回答:
   - "我这个项目应该用 VPS、Serverless、还是静态托管"
   - "对象存储为什么便宜,放视频流和放数据库备份分别贵在哪"
   - "K8s 适不适合我们这种 3 人小团队"(99% 的答案是不适合)
   - "Supabase 的免费套餐够撑多少并发"
   解决:在"怎么部署"这一层不再二选一焦虑,知道每个产品的位置和边界

第三层(18-25):
   学完能回答:
   - "Cloudflare 承诺的 100% Uptime SLA 是真的吗"(剧透:是法律意义上的)
   - "我的网站 P95 延迟 800ms 是不是不行"(看业务,不看绝对值)
   - "免费套餐为什么日志只能保留 3 天,这够不够用"
   - "对象存储有 11 个 9 持久性,为什么我还要备份"
   解决:不被 SLA 数字迷惑,理解"稳定"和"可观测"是两件事

第四层(26-33):
   学完能回答:
   - "Root 账号能不能直接拿来 deploy"(不能)
   - "API Key 该放环境变量还是 Secrets Manager"
   - "前端为什么会有 CORS 错误,后端怎么改才对"
   - "为什么 OAuth 比自己写登录系统更安全也更便宜"
   - "我们存欧盟用户数据有没有 GDPR 问题"
   解决:在"安全"这一层不写出灾难性配置,理解"责任共担"在哪里画线

第五层(34-42):
   学完能回答:
   - "我这个架构 worst case 一个月烧多少钱"
   - "Vercel / Netlify / Cloudflare Pages / Firebase 我该选哪个"
   - "出站流量为什么这么贵,有什么便宜的替代"
   - "我的副业项目要不要预先设预算告警"(必须)
   解决:对成本和选型有"工程师的直觉",不再被市场文案带节奏

3.2 一个硬指标

看完 01-08 + 14-15 + 34-42 这 19 篇(也就是「最小阅读路径」),你应该能30 分钟内对一个新项目做出以下判断:

□ 域名注册商选哪家、DNS 托管放哪、TTL 设多少
□ HTTPS 证书走 Let's Encrypt 自动续期 还是 Cloudflare 边缘 SSL
□ CDN 用 Cloudflare 免费套餐够不够,什么时候要升级
□ 静态前端放 Vercel / Netlify / Cloudflare Pages / GitHub Pages 哪个
□ 用户上传的文件放哪个对象存储(S3 / R2 / OSS),为什么
□ 算出 worst-case 月成本,设一个 5 倍预算告警
□ 知道每一个免费套餐的"硬天花板"在哪,什么时候必须升级

能做到这个,这个系列就值了


四、不同角色的最小阅读路径

不是所有人都要读完 42 篇。按角色给你最小路径——读完这些篇,你对这个角色面对的「云服务问题」就有了基本判断力:

角色必读选读
独立开发者 / 副业项目01-06(入口), 13-15(Serverless / 静态 / 对象存储), 34-35, 39-42(套餐与选型)16-17(数据库 / 缓存), 26-28(账号安全)
SaaS 创始人 / 早期团队01-08(全部入口), 13-17(资源全套), 18-19(SLA), 26-28(账号 / IAM / Key), 34-42(选型 + 成本)22-25(监控 / 备份), 29-32(合规)
前端 / 全栈工程师01-07(入口), 14(静态托管), 30(CORS), 34-35, 38(构建分钟), 40-41(主流套餐)13(Serverless), 15(对象存储)
后端工程师01-04, 09-12(资源 / 容器 / K8s), 15-17(存储 / DB / 缓存), 26-28(IAM / Key), 36-37(流量与请求计费)08(DDoS), 18-22(可观测性)
AI 工程师 / RAG 应用01-06, 13(Serverless), 15(对象存储放模型 / 文档), 16(向量库这类托管 DB), 28(API Key), 36(出站流量)35-37(各类计费)
想从"代码党"转型懂部署全部第一层 + 14-15 + 34-35 + 40-42其它按需
架构师 / 技术 Lead01, 06, 09-10, 13, 15, 18-19, 27, 33, 42其它按需

几个判断点:

- 你打算独立做个 SaaS / 边项目                  → 必须读 01-06, 13-15, 34-42
- 你的项目有用户上传(头像 / 文档 / 视频)       → 必须读 15, 36, 37
- 你的项目要做支付 / 存欧盟用户                 → 必须读 26-29, 32-33
- 你的项目可能突然有流量(被 KOL 提了一下)     → 必须读 06, 08, 18-19, 34, 39
- 你之前在大厂,准备出来做小项目                → 必须读 10, 18-19, 34, 39-42(大厂思维下不下来)
- 你买过域名但搞不清解析为什么不通              → 必须读 02-04
- 你的月度账单已经超出预期                      → 必须读 34-39

独立开发者的最小路径 = 01-06 + 14-15 + 34-35 + 39-42 = 13 篇——大约一个月,每周读 2-3 篇,看完你就完成了从「上线靠玄学」到「上线靠工程判断」的转型。


五、与其他系列的边界

云服务这一层和很多其它技术栈交叉。讲清楚边界,你才知道遇到一个问题该去哪本系列查:

内容已有系列本系列怎么处理
TCP / HTTP / TLS / DNS 协议细节networkLearning ✅不重复。本系列 03、05 只点应用工程师必须知道的常识(记录类型、TTL、证书错误的常见症状),协议本身的字段、握手、状态机去 networkLearning
后端架构、容器、K8sbackendLearning ✅不重复。本系列 11-12 只讲"容器 / K8s 作为云产品"的位置、成本、何时不该用,如何编写 Dockerfile / 写 K8s manifest 去 backendLearning
SRE、监控、事故复盘devopsLearning ✅不重复。本系列 18-25 只讲"应用工程师看到 SLA / 监控 / 告警时该有的常识",真正做监控系统、写 Runbook、跑事故复盘去 devopsLearning
Web 安全、渗透测试securityLearning ✅不重复。本系列 26-33 只讲"云服务用户必须配置对的东西"(MFA、API Key 轮换、CORS),漏洞挖掘、攻击面分析去 securityLearning
系统设计、高可用systemDesign ✅不重复。本系列 25 容灾只讲"云产品层面的可用性",大型分布式系统的多活、一致性、CAP 去 systemDesign
分布式系统理论distributedLearning ✅不重复。本系列只讲云产品视角的"最终一致性"、"区域隔离",理论模型去那本
数据库 / 数据工程backendLearning / dataEngineering本系列 16 只讲"托管数据库作为云产品"的连接数、备份、定价,数据库内部和数据管道去那两本
终端 / SSH / dotfilesterminalLearning ✅不重复。本系列 09 提到云服务器时用 SSH,具体怎么用 SSH 去 terminalLearning
Claude Code / AI 工具claudeLearning ✅不重复。本系列只在 28 篇提到"API Key 该怎么管"时点一下 Anthropic / OpenAI Key 的存放,Claude Code 本身去那本

最简单粗暴的判断:

"我代码本身有问题"                          → 各语言系列
"我服务上线后 502 / 502 / timeout"          → 本系列(01-08 排查)+ backendLearning
"我账单超预算 / 套餐看不懂"                 → 本系列(34-42)
"我 K8s / Docker 不会用"                    → backendLearning
"我 Linux / SSH / shell 不会"               → terminalLearning
"我安全漏洞 / 渗透 / 防御"                  → securityLearning
"我监控 / 告警 / 事故复盘"                  → devopsLearning
"我系统设计大题"                            → systemDesign
"我 TCP / TLS 抓包"                         → networkLearning
"我 API Key 该怎么存 / 怎么轮换"             → 本系列 28
"我 DNS / HTTPS / CDN 怎么配"                → 本系列 02-06

注意一个交叉点:networkLearning 讲协议(TCP 三次握手、TLS 1.3、HTTP/2 多路复用),本系列讲应用工程师视角下用云服务时该知道的协议常识——你不需要会画 TLS 握手图,但你需要知道「Cloudflare 的 Full (Strict) 模式比 Flexible 模式安全在哪、慢在哪」。两本结合读才完整:一本给你机制深度,一本给你应用宽度。


六、几个反直觉的事

刚开始想认真学云服务常识,最容易卡在几个认知误区上。这一节把它们逐个打破——

6.1 "我用 Cloudflare 全免费,根本不用懂这些"——错在哪

Cloudflare 免费套餐的真实工作方式:

   用户请求

       │ DNS 解析到 Cloudflare 边缘节点(免费)

   Cloudflare 边缘节点(免费 CDN / SSL / DDoS 基础)

       │ Cache MISS 时回源

   你的源站 ← 这一段流量出了 Cloudflare,可能被你的源站厂商计费

       │ 源站处理请求

   响应回到 Cloudflare → 用户

Cloudflare 免费套餐解决的问题非常具体:边缘 CDN 缓存、HTTPS 证书、基础 DDoS 防护。但它不解决:

  • 你的源站(Vercel / AWS / VPS)的费用——回源流量、计算费、出站带宽都还在
  • WAF 规则(免费只给 5 条自定义规则)
  • Image Resizing(付费功能)
  • Cloudflare Workers(免费有调用次数和 CPU 时间上限)
  • Rate Limiting(免费有限制,复杂规则要付费)
  • Argo Smart Routing(付费功能)
  • 你违反 ToS 时的封号(免费用户被封基本没救)

真相是:Cloudflare 免费套餐是"边缘那一层免费",不是"整套架构免费"。当你的源站在 Vercel 上跑 Serverless,Cloudflare 帮你挡掉的是"重复的静态资源请求",但只要有一次回源 Cloudflare 都不收钱,而 Vercel 那边的每一次 Function Invocation 全部照算懂常识 = 知道 Cloudflare 在帮你省哪部分,不懂常识 = 以为"挂上 Cloudflare 就免费"

6.2 "Serverless 完全不用管服务器"——真实代价被藏起来了

"无服务器"的字面意思 vs 真实代价:

字面意思:你不用买服务器、不用维护操作系统、不用扩容
真实代价:
   - 冷启动:函数 5-30 秒没人调用就被回收,下一次调用从零起 1-3 秒
   - 单次执行时间上限:Vercel 10 秒、AWS Lambda 15 分钟、Cloudflare Workers 50ms CPU
   - 并发限制:每个区域最大同时执行数,超了排队 / 拒绝
   - 数据库连接打爆:每个函数实例独立建连,瞬时高峰打爆 max_connections
   - 调用次数计费:每次调用算钱,白嫖型用户被反复 ping 一晚就破额度
   - 冷启动依赖:启动时装的包越多越慢,SDK 体积成本翻倍
   - 调试困难:本地跑得好好的,线上 timeout 不知道为什么

"无服务器"是一句营销话术,真实的 Serverless 是「把运维上的麻烦换成了配置上的麻烦,把固定成本换成了不可预测的变动成本」。适合用 Serverless 的场景非常窄:

适合 Serverless:
   ✓ 偶发触发(Webhook、定时任务、低频 API)
   ✓ 短时执行(< 1 秒,纯计算或简单 IO)
   ✓ 流量极度不均匀(99% 时间空闲,1% 时间需要瞬时扩 100 倍)
   ✓ 团队没人想运维(用户体验差一点也认了)

不适合 Serverless:
   ✗ 持续中等流量(改用 VPS / 长连接服务更便宜)
   ✗ 长时间任务(视频处理、AI 推理超 10 秒)
   ✗ 大量数据库连接(改用连接池 / 长连接更稳)
   ✗ 严格的延迟要求(P99 < 100ms,冷启动会拉爆)
   ✗ 想精确控成本(按调用次数计费很难封顶)

结论:Serverless 不是 silver bullet,是一种特定场景下的工具。看到任何鼓吹「未来都是 Serverless」的文章,要在心里加一句:「对哪种场景的未来?」13 篇会展开讲这个。

6.3 "99.9% SLA 听起来很高"——它的意思可能不是你想的那样

99.9% SLA 的字面意思 vs 真实含义:

字面意思:一年只能有 8.76 小时不可用
真实含义:
   - 不可用时间通常按"连续故障 X 分钟"统计,瞬时抖动不算
   - 计费周期通常是月,99.9% / 月 = 43.2 分钟不可用
   - SLA 违约的赔偿一般是"按比例返还服务费"——你一个月花 $20,
     赔你 $2,根本补不回你业务损失
   - 大部分 SLA 写明"以下情况不算 downtime":
       * 计划内维护
       * 你自己的配置错误
       * 互联网骨干网问题
       * 上游 DNS 故障
       * 第三方依赖故障
       * 不可抗力
   - "100% Uptime SLA" 经常是法律意义上的——Cloudflare、
     Vercel 都写过,但赔偿条款一看,基本等于没有

真相是:SLA 是法律承诺,不是工程保证。云厂商承诺 99.99%,实际表现可能 99.95%——只要赔偿条款覆盖得过去,他们就敢写。对你来说,SLA 不是用来"信"的,是用来"算"的:

你应该这样看 SLA:

   厂商承诺 SLA:99.9%
   你的真实需求:不能让用户连续 30 分钟看不到登录页
   厂商承诺折算:99.9% / 月 = 最多 43 分钟不可用
   
   结论:理论上够,但需要监控 + 备份方案,因为厂商可能集中故障一次性 30 分钟
   
   厂商承诺 SLA:99.99%(对象存储)
   你的真实需求:文件不能丢,因为是用户付费上传的合同 PDF
   厂商承诺折算:99.99% Uptime 不等于 99.99% Durability(后者一般 11 个 9)
   
   结论:Uptime 和 Durability 是两件事,你要看后者

18-19 篇会展开讲 SLA / SLO / SLI 的区别,看完这两篇,你听到任何「99.9%、99.99%、100%」都会自动在心里问:「哪个维度的 99.9%?计费周期是月还是年?排除哪些情况?违约赔多少?

6.4 "我的项目还小,先免费用,等流量来了再升级"——升级的代价被低估了

很多人觉得「免费套餐 → 付费套餐」是一个连续渐变的过程——实际上往往是悬崖:

免费套餐 → 付费套餐的真实代价:

平台              免费 → 最低付费              悬崖在哪
─────────────────────────────────────────────────────
Vercel           Hobby → Pro $20/月            从"非商用"变"商用",
                                              SLA、并发、流量都跳一档
Cloudflare       Free → Pro $25/月             WAF 规则数、防火墙规则、
                                              Image Resizing 全跳
Supabase         Free → Pro $25/月             max_connections 60 → 200,
                                              存储 500MB → 8GB,要预先迁移
Netlify          Starter → Pro $19/月          构建分钟、Edge Function 调用
                                              数全跳
GitHub Actions   Free → 按分钟计               私有仓库每月 2000 分钟
                                              用完 $0.008/分钟
Cloudflare R2    Free → 按存储计               存储免费但 Class A 操作
                                              超 1M 开始计费

「等流量来了再升级」的隐藏成本:

- 流量来的那一刻,你大概率在做别的事(吃饭、睡觉、开会)
- 等你升级完,故障窗口已经过了,用户已经流失
- 升级有时候涉及数据迁移(Postgres 升级、对象存储换 region)
- 紧急升级时你会做出一堆事后后悔的配置决定
- 月底账单会因为"试图救场"的临时配置变得很难看

正确的做法是:

项目从 0 开始时:
   ✓ 选免费套餐,但预先设好"如果流量来了我会切到哪个套餐"
   ✓ 把 worst-case 成本算出来,告诉自己"这条线之前都还能接受"
   ✓ 给账户加预算告警(免费套餐也能设)
   ✓ 不在免费套餐的"硬天花板"附近设计架构
     (例:Supabase max_connections=60 时,你的设计应该假设最多 30 并发)
   ✓ 关键功能(支付、登录)使用付费套餐,即便免费够用

这就是「云服务常识」在工程实践中的样子:不是「等出事再说」,而是「事前用 5 分钟做一个 worst-case 算账」。5 分钟换来一个不会让你半夜爬起来救火的架构,这就是常识的复利

6.5 "用最便宜的厂商就行"——隐藏成本经常超过显式价格

"便宜"的厂商常见隐藏代价:

价格便宜的真实场景:
   - 出站流量贵(便宜的 EC2 配很贵的带宽,1TB 出站 $90)
   - 跨区域流量贵(同 region 免费,跨 region 一字千金)
   - 操作次数贵(便宜的对象存储,PUT/GET 一次 $0.0005,
     高频写入项目一个月 $200+)
   - 不收"上车费"但收"下车费"(数据 egress 费,迁出贵)
   - 默认配置安全性低(默认开放公网访问、默认明文存储)
   - SLA 低、客服差、文档烂(故障时全靠自己)
   - 区域少、节点少(国内用户访问海外厂商延迟 300ms+)
   - 合规缺(GDPR、ISO27001、SOC2 都没,出了事打不了官司)

应用工程师做选型时,真实成本 = 显式价格 + 出站流量 + 操作次数 + 迁移代价 + 故障期望损失 + 合规代价而最便宜的厂商通常在「出站流量」和「迁移代价」上把钱赚回来——你免费用了一年,等想搬家时,数据迁出费用比这一年的存储费还贵。

这就是 Cloudflare R2 这种"零出口费"产品的真实价值:不是它存储便宜(其实和 S3 差不多),而是它把"被锁定"这件事打破了懂常识 = 看到价格表会找"出口费"那一行,不懂常识 = 看着 $0.015/GB 就觉得便宜,签了三年合同


七、立场声明

这个系列的写作立场,把它说在前面以免你期望落空:

✓ 服务于"独立开发者 / 应用工程师 / 小团队 SaaS 创始人"的视角
   不是企业架构师,不是 AWS Certified 备考者,不是 SRE
   读者画像是"想把云服务这一层从黑盒变成白盒的应用工程师"

✓ 面向 2026 之后的云服务格局
   Cloudflare / Vercel / Supabase / R2 / Workers 是默认假设
   不写 AWS 单一厂商的全套,也不写 2015 年那套"VPS 万岁"
   不写国内特定厂商的备案细节,只在涉及合规时点一下

✓ 通用概念优先,具体厂商次之
   每篇都先讲"这个概念是什么"、再举"Cloudflare / Vercel / AWS / 阿里云怎么实现的"
   不教你"在 XX 控制台点 XX 按钮"

✓ 大量 ASCII 框图
   架构层级、请求链路、计费维度,画图比文字清楚 10 倍

✓ 真实场景驱动
   每个概念都从一个"账单暴涨 / 故障公告 / 配置错误"的真实场景切入
   不堆术语定义

✗ 不写"AWS 全产品名录"
   AWS 自己有 200+ 个产品,本系列只讲"应用工程师需要知道的那些"

✗ 不抄云厂商官方文档
   官方文档在那儿,这里只补它没讲透的"为什么"和"什么时候不要用"

✗ 不写"AWS vs Azure vs GCP 哪个好"式无脑对比
   每个厂商都有擅长场景,选型要看你自己的需求

✗ 不写过时价格表
   价格和额度变化太快,只写"查看方法",需要具体数字时标注查询日期

✗ 不写"我推荐 XX 厂商"
   只讲选型逻辑,不带货

✗ 不堆 flag,不抄 CLI 文档,不教 yaml 全字段
   只贴"能跑、能改、能复现"的最小片段

面向 2026:

  • 假设你的项目 80% 用 Cloudflare / Vercel / Netlify / Supabase / Firebase 这类"现代 PaaS"
  • 假设你的项目剩下 20% 可能用 AWS / 阿里云 / 腾讯云的具体产品
  • 假设你已经会用 git、会写代码、会基本的 SSH 和 Docker
  • 假设你不在乎"是不是企业级",在乎"够不够便宜、够不够稳、够不够快"
  • 假设你会用 Claude Code / ChatGPT 帮你写 yaml / Terraform,所以本系列不教 Terraform 语法

八、读完整套你应该有的本能

看到任何一个云服务产品页(免费套餐 / Pricing 页),
你下意识地做这几件事:

  □ 找"免费额度"的具体数字,看它被切成几个独立维度
  □ 找"超额怎么算"——是自动切付费、还是直接报错、还是降级
  □ 找"硬限制" vs "软限制",硬限制(如 max_connections)在哪
  □ 找"出站流量价格",这往往是隐藏的最大开销
  □ 找 "Operations / Requests" 计费,这往往是第二大开销
  □ 找 SLA 条款,看赔偿是不是法律意义上的
  
看到一个新项目的架构图,你下意识地问:
  □ 用户请求穿过几个云组件?每一个的成本和延迟是多少?
  □ 哪些组件在免费套餐,哪些在付费?
  □ worst-case 流量下,月成本会跳到哪个数字?
  □ 哪一层挂了,会让全站 down?哪一层挂了,只是降级?
  □ DNS / HTTPS / CDN / 源站 哪一层是单点?
  □ 数据存哪儿、跨区域吗、备份在哪、丢了能恢复吗

看到一份云服务账单,你下意识地问:
  □ 哪个产品占比最大?是不是预期内?
  □ 出站流量占多少?是不是被回源拖了?
  □ 有没有"莫名其妙"的产品出现(可能是被攻击 / 配置错误)
  □ 这个月有没有超出预算告警?为什么我没收到?
  
看到一份故障公告 / Status Page:
  □ 我用的是受影响的 region 吗?
  □ 我用的服务是受影响的产品吗?
  □ 受影响的是数据面还是控制面?
  □ 我有没有需要切到备份的依据(SLA 已经被违约了吗)

这套反射不是知识,是肌肉记忆——看到一个云产品页、一份架构图、一份账单,这些问题在你脑子里 30 秒跑完。这就是「懂云服务常识」和「用过云服务」的差别


九、看完这一篇你应该能

  • 在白板上画出第三节那张「五层结构」全景图,讲清楚每一层在解决什么问题
  • 能反驳"我用 Cloudflare 全免费就够"这种说法,举得出 3 个免费套餐救不了的场景
  • 能区分「云服务常识」和「某家厂商的操作手册」——前者是通用认知,后者是具体技能
  • 能解释为什么 Serverless 不是 silver bullet,举出 3 个不适合 Serverless 的场景
  • 能解释 99.9% SLA 的真实含义,知道为什么"100% Uptime SLA"经常等于没承诺
  • 能根据自己的角色,选出本系列必读的篇目(独立开发 / SaaS 创始人 / 前端 / 后端 / AI 工程师)
  • 能讲清楚"先免费、流量来了再升级"的隐藏代价,说服自己事前做 worst-case 成本测算

如果上面这 7 条你都能做到,这一篇就值了


十、节奏建议

建议阅读节奏:

第 1 周:第一层 8 篇(本篇 + 02-08)
        互联网入口 / DNS / HTTPS / CDN,先把"请求链路"打通
        这一周可以拿一个自己的域名 + Cloudflare 实战一遍

第 2-3 周:第二层 9 篇(09-17)
        云资源全套,先看完再决定自己用什么
        这两周可以把一个边项目从 0 部署到上线

第 4 周:第三层 8 篇(18-25)
        SLA / 监控 / 备份,这一周给已有项目加一个监控
        即便用 UptimeRobot 这种免费工具也可以

第 5 周:第四层 8 篇(26-33)
        安全 / 权限 / 合规,这一周把账号 MFA、API Key 轮换、
        Root 隔离全部做掉

第 6-7 周:第五层 9 篇(34-42)
        计费 / 选型,这两周对照自己的项目做一次"账单复盘"
        把"如果流量翻 10 倍我会被收多少钱"算清楚

总耗时:6-8 周,大致一个半月到两个月

不要一口气读完——每读完一篇,至少在自己的项目里找一个对应的配置看看:看 Cloudflare DNS、看 Vercel 账单、看 Supabase 连接池、看对象存储的 CORS。光看不练等于没看,但有了这套常识地图,你练的每一次都是有方向的


十一、踩坑提醒(总览版,后面每篇细讲)

后面 41 篇会逐个填这些坑,但这里先列出来——读完整个系列,你应该能避开这 15 个最常见的坑:

  1. 域名注册商和 DNS 托管混淆——NS 没改对,等 DNS 等一周
  2. HTTPS 证书过期忘了——Let's Encrypt 自动续期没设好,某天 SSL 错误吓走用户
  3. Cloudflare SSL 模式选错——选了 Flexible,中间人攻击门户敞开
  4. CDN 没缓存核心资源——回源费用爆表,Cloudflare 命中率 < 50%
  5. WAF 当万能盾——以为有 WAF 就不用做参数校验
  6. VPS / Serverless 二选一焦虑——明明用 VPS 更便宜还非要上 Lambda
  7. 对象存储 CORS 没配——前端上传文件全部 403
  8. 数据库连接没用连接池——Serverless 函数把 Postgres 打爆
  9. Root 账号到处用——一旦 Key 泄露,整个账户被裸奔
  10. API Key 写代码里 commit——GitHub 上的 secret 一两小时被扫到、被白嫖
  11. CORS 配 Access-Control-Allow-Origin: *——以为是"调试方便",其实是漏洞
  12. 没设预算告警——月底被账单震惊
  13. 免费套餐计费维度看漏——以为只算流量,结果被 Function Invocations 收掉
  14. 以为"99.9% SLA"=不会挂——挂的时候找不到备份方案
  15. 被一家厂商锁定——数据出站费 > 一年存储费,迁移不动

这 15 条每条后面都对应一篇文章——下面 41 篇就是这 15 条坑的逐个填补。


十二、小结:你为什么读这个系列

回到开篇:

"你不再只是会写代码的工程师"

读完这个系列之后,你会:
   - 知道一个 HTTP 请求从用户到你代码,中间穿过哪些云组件
   - 知道任何一个"免费套餐"被切成了哪几个独立维度,各自的天花板在哪
   - 知道 SLA 数字背后是什么、哪些是法律承诺、哪些是工程保证
   - 知道云服务的"显式价格"之外还有出站流量、操作次数、迁移代价
   - 知道哪些事是云厂商负责、哪些事是你负责,出问题时该找谁
   - 知道任何一份架构图都该问"成本最高在哪、单点最危险在哪"

最终,你成为团队里"做技术选型时最不被市场文案带节奏"的那个人
   不是装懂,是工程能力——
   - 同事问"我们该用 Vercel 还是 Cloudflare Pages",你 1 分钟给方案
   - 同事问"账单为什么 $200",你 30 秒能定位
   - 老板问"上线之后流量翻 10 倍会怎样",你能立刻拉出 worst-case 表
   - 新人入职问"DNS / CDN / WAF 怎么搭",你能 5 分钟讲清楚
   - 出故障时,你能在 10 分钟内判断"是我们的锅还是云厂商的锅"

云服务常识是应用工程师的"成本意识 + 系统视角"——你练一次,用一辈子;你不练,每次部署、每次扩容、每次出故障,都要重新付一遍学习税。

国内市场对"云服务常识"长期低估——大家热衷讨论"用什么框架"、"用什么 AI 工具",却很少有人把「云这一层」当成一项工程认知来对待。这种错位不会一直持续——一旦独立开发 / 副业项目 / 小团队 SaaS 在 2026 年成为主流,真正拉开差距的就不再是「会不会写代码」,而是「你能不能把一个想法低成本、高可用、安全地放到互联网上」。这种能力的核心,就是云服务常识你提前练这套手艺,就是给自己积复利


下一篇:02-域名是什么:注册商、注册局、DNS 托管的区别.md——这一篇讲了「为什么要懂云服务常识」,下一篇讲「用户访问一个网站的第一步:域名」。

你买了一个 .com 域名,这背后发生了什么?
   - 你付钱的是"注册商"(GoDaddy / Cloudflare / 阿里云)
   - 真正分发的是"注册局"(Verisign 管 .com,PIR 管 .org)
   - 域名信息存在"WHOIS / RDAP"里
   - "DNS 托管"是另一个独立服务(可能在注册商,也可能在第三方)
   - 浏览器要先查"递归 DNS"(运营商或公共 DNS)
   - 递归 DNS 找"权威 DNS"(你 NS 指向的地方)
   - 权威 DNS 返回 A / AAAA / CNAME 记录

这一套东西不画图永远讲不清楚,02 篇会把它一图打通。看完 02 你应该能在白板上画出「域名注册 → 用户访问」的完整链路,并指出每一步如果出错会看到什么现象——这套图建好,后面 40 篇的所有概念(CDN 为什么要 CNAME / 邮件为什么用 MX / DNSSEC 解决什么)就都有了挂靠点。

最后更新: