随着基于云服务的普及,云计算系统已经成为社会赖以生存的关键基础设施。其超大的规模和极高的复杂性给系统的可靠性带来了很大的挑战:传统的基于共识协议和容错技术的方法已无法保证让云系统免于灾难性故障。通过对运营中的云服务错误的分析,我们定义了“灰色错误”,并发现云系统中的灰色错误---“云中的灰天鹅”---是导致云系统异常和宕机的关键原因。我们以我们最近的研究来展示如何基于这些新的发现来重新审视和定义大系统可靠性的根本原则、方法学和实践。最后,我们会介绍微软亚洲研究院对系统和网络未来愿景的展望以及我们尝试塑造未来计算的研究和探索。