跳到主要内容

额外 ✦

在这个阶段，我们将深入研究后端开发和 DevOps 领域的高级主题，这些主题将帮助您加深在构建可靠且可扩展的 AI 代理系统方面的知识和技能。这些概念对于那些渴望在 AI 项目中担任系统架构师或技术负责人角色的人尤其有用。

Ask AI 指南

指南

由于这些主题不会随时间变化，因此最好通过个人导师 - ChatGPT 来学习它们。

学习过程应如下：

您为 ChatGPT 编写一个系统提示词（模板），在其中描述您的背景、偏好、解释的详细程度等。
从列表中复制主题（三击），并要求 ChatGPT 向您解释该主题
如果想深入研究，请提出澄清问题

目前，这是学习基础知识最方便的方法。除了概念之外，您还可以在 Gold、Silver、Extra 部分学习其他材料。

Gold - 在与 ChatGPT 交流之前一定要学习
Ask AI - 询问每个不熟悉的主题
Silver - 次要材料
Extra - 深入主题

Golden

10 个 Sysdes 模式

为什么 Kubernetes 如此受欢迎

Sysdes

更多 Sysdes

Ansible

Terraform

Ask AI

DevOps 和基础设施

Nginx 用于 AI 系统：负载均衡和请求代理
Kubernetes：在生产环境中编排 ML 工作流（实践案例）
Kubernetes Operators：自动化重复性任务（概述）
GitOps 入门：基本原则和 ArgoCD 设置
Kubernetes 监控：Prometheus + Grafana（AI 模板）
Service Mesh：Istio/Linkerd 的基本概念（简述）
Helm：应用程序模板化（AI 开发人员实践）
Canary Deployments：安全更新模型（分步指南）
Infrastructure as Code：Terraform 和 Pulumi 的比较（概念）
CI/CD 管道：自动化模型训练（端到端示例）

高负载系统

数据库分片：初学者的基本策略
CQRS + Event Sourcing：架构模式（概述）
消息队列：Kafka vs RabbitMQ（AI 比较）
Backpressure：保护系统免受过载（实践示例）
数据一致性：分布式系统的基本模式
延迟优化：诊断 AI 推理中的问题
缓存：多层策略（实践案例）
Observability：监控 AI 管道（OpenTelemetry）
大数据处理：Spark 入门（基本概念）
Rate Limiting：保护 API（现成解决方案和库）

安全性和可靠性

OAuth 2.0：AI 系统的实践实现
模型保护：针对提示词注入的基本方法
Zero Trust：基本原则（简要概述）
Secrets Management：使用 HashiCorp Vault（指南）
Fault Tolerance：初学者模板（概述）
gRPC：优化微服务之间的通信
Blue-Green Deployments：AI 模型的基本场景
SLA/SLO/SLI：质量指标（实践示例）
安全审计：主要阶段（检查表）
冗余：AI 推理策略（简述）

云技术和财务优化

多云策略：降低 AI 系统对提供商的依赖
FinOps：优化 AI 项目的云 GPU 和 TPU 成本
Spot Instances：有效用于模型训练
Serverless for AI：架构模式和反模式
Cloud Native AI：有效使用云 ML/AI 服务
Data Lake 和 Data Warehouse：AI 数据架构
Edge Computing：将 AI 推理转移到更靠近数据源的位置
云提供商基准测试：AI 工作流方法
Pay-as-you-go vs Reserved Instances：AI 初创公司策略
云自动化：用于监控和优化成本的机器人

AI 数据库和存储

向量数据库：优化 RAG 系统的查询和索引
Time Series DB：存储和分析时间序列以进行 AI 监控
NewSQL：具有 ACID 保证的现代分布式数据库
Data Lakehouse：AI 初创公司架构（Delta Lake、Iceberg）
Column Store vs Row Store：分析型 AI 系统的选择
Embedded DB：Edge AI 的本地解决方案（SQLite、DuckDB）
事务性 Outbox：服务之间可靠的事件传输
全文搜索：用于 AI 混合搜索的 Elasticsearch
Database Federation：统一异构数据源
Graph DB：用于 LLM 知识图谱和推荐

Silver

AI 工程师的 DevOps 路线图
现代云应用程序架构模式
Ansible vs Puppet vs Chef：比较分析
分布式系统测试：方法和工具

Extra

为 AI 工作流开发自定义 Kubernetes 运算符
EventMesh：微服务 AI 系统的全局事件总线
WebAssembly 作为轻量级 AI 模型的运行时环境
eBPF：用于高负载 AI 系统的内核级监控和调试
unikernels：用于 AI 推理的极简专用操作系统
后端开发中的函数式编程：AI 系统的优势
AI 系统的 SRE：Google 的实践和流程
AI 的量子计算：现代状态和前景
零停机数据库迁移：持续运行策略
Data Sovereignty：符合 AI 数据的区域要求

Golden
Ask AI
Silver
Extra