额外 ✦
在这个阶段,我们将深入研究后端开发和 DevOps 领域的高级主题,这些主题将帮助您加深在构建可靠且可扩展的 AI 代理系统方面的知识和技能。这些概念对于那些渴望在 AI 项目中担任系统架构师或技术负责人角色的人尤其有用。
Ask AI 指南
指南
由于这些主题不会随时间变化,因此最好通过个人导师 - ChatGPT 来学习它们。
学习过程应如下:
- 您为 ChatGPT 编写一个系统提示词(模板),在其中描述您的背景、偏好、解释的详细程度等。
- 从列表中复制主题(三击),并要求 ChatGPT 向您解释该主题
- 如果想深入研究,请提出澄清问题
目前,这是学习基础知识最方便的方法。除了概念之外,您还可以在 Gold、Silver、Extra 部分学习其他材料。
- Gold - 在与 ChatGPT 交流之前一定要学习
- Ask AI - 询问每个不熟悉的主题
- Silver - 次要材料
- Extra - 深入主题
Golden
10 个 Sysdes 模式
为什么 Kubernetes 如此受欢迎
Sysdes
更多 Sysdes
Ansible
Terraform
Ask AI
DevOps 和基础设施
- Nginx 用于 AI 系统:负载均衡和请求代理
- Kubernetes:在生产环境中编排 ML 工作流(实践案例)
- Kubernetes Operators:自动化重复性任务(概述)
- GitOps 入门:基本原则和 ArgoCD 设置
- Kubernetes 监控:Prometheus + Grafana(AI 模板)
- Service Mesh:Istio/Linkerd 的基本概念(简述)
- Helm:应用程序模板化(AI 开发人员实践)
- Canary Deployments:安全更新模型(分步指南)
- Infrastructure as Code:Terraform 和 Pulumi 的比较(概念)
- CI/CD 管道:自动化模型训练(端到端示例)
高负载系统
- 数据库分片:初学者的基本策略
- CQRS + Event Sourcing:架构模式(概述)
- 消息队列:Kafka vs RabbitMQ(AI 比较)
- Backpressure:保护系统免受过载(实践示例)
- 数据一致性:分布式系统的基本模式
- 延迟优化:诊断 AI 推理中的问题
- 缓存:多层策略(实践案例)
- Observability:监控 AI 管道(OpenTelemetry)
- 大数据处理:Spark 入门(基本概念)
- Rate Limiting:保护 API(现成解决方案和库)
安全性和可靠性
- OAuth 2.0:AI 系统的实践实现
- 模型保护:针对提示词注入的基本方法
- Zero Trust:基本原则(简要概述)
- Secrets Management:使用 HashiCorp Vault(指南)
- Fault Tolerance:初学者模板(概述)
- gRPC:优化微服务之间的通信
- Blue-Green Deployments:AI 模型的基本场景
- SLA/SLO/SLI:质量指标(实践示例)
- 安全审计:主要阶段(检查表)
- 冗余:AI 推理策略(简述)
云技术和财务优化
- 多云策略:降低 AI 系统对提供商的依赖
- FinOps:优化 AI 项目的云 GPU 和 TPU 成本
- Spot Instances:有效用于模型训练
- Serverless for AI:架构模式和反模式
- Cloud Native AI:有效使用云 ML/AI 服务
- Data Lake 和 Data Warehouse:AI 数据架构
- Edge Computing:将 AI 推理转移到更靠近数据源的位置
- 云提供商基准测试:AI 工作流方法
- Pay-as-you-go vs Reserved Instances:AI 初创公司策略
- 云自动化:用于监控和优化成本的机器人
AI 数据库和存储
- 向量数据库:优化 RAG 系统的查询和索引
- Time Series DB:存储和分析时间序列以进行 AI 监控
- NewSQL:具有 ACID 保证的现代分布式数据库
- Data Lakehouse:AI 初创公司架构(Delta Lake、Iceberg)
- Column Store vs Row Store:分析型 AI 系统的选择
- Embedded DB:Edge AI 的本地解决方案(SQLite、DuckDB)
- 事务性 Outbox:服务之间可靠的事件传输
- 全文搜索:用于 AI 混合搜索的 Elasticsearch
- Database Federation:统一异构数据源
- Graph DB:用于 LLM 知识图谱和推荐
Silver
- AI 工程师的 DevOps 路线图
- 现代云应用程序架构模式
- Ansible vs Puppet vs Chef:比较分析
- 分布式系统测试:方法和工具
Extra
- 为 AI 工作流开发自定义 Kubernetes 运算符
- EventMesh:微服务 AI 系统的全局事件总线
- WebAssembly 作为轻量级 AI 模型的运行时环境
- eBPF:用于高负载 AI 系统的内核级监控和调试
- unikernels:用于 AI 推理的极简专用操作系统
- 后端开发中的函数式编程:AI 系统的优势
- AI 系统的 SRE:Google 的实践和流程
- AI 的量子计算:现代状态和前景
- 零停机数据库迁移:持续运行策略
- Data Sovereignty:符合 AI 数据的区域要求