更高的可靠性:可靠的服务器可以确保您的应用程序始终可用,从而避免宕机和数据丢失。(更高的可靠性英文翻译)

可靠的服务器可以确保您的应用程序始终可用

可靠的服务器可以确保您的应用程序始终可用从而避免宕机和数据丢失。这对于企业来说至关重要,因为宕机会导致收入损失、客户满意度下降和声誉受损。

有许多方法可以提高服务器的可靠性,包括:

  • 使用冗余组件。这包括电源、磁盘和其他关键组件。如果一个组件发生故障,冗余组件将接管,确保服务器继续运行。
  • 使用高可用性软件。这可以帮助服务器自动从故障中恢复,而无需人工干预。
  • 遵循最佳实践。这包括定期备份、更新软件和监视服务器性能。

通过遵循这些最佳实践,您可以提高服务器的可靠性,并确保您的应用程序始终可用。

更高的可靠性带来的好处

提高服务器可靠性可以带来许多好处,包括:

  • 避免宕机。宕机会导致收入损失、客户满意度下降和声誉受损。可靠的服务器可以帮助您避免这些问题。
  • 保护数据。数据对于任何企业来说都是宝贵的资产。可靠的服务器可以帮助确保您的数据安全、可靠。
  • 提高生产力。宕机会导致员工停工和生产力下降。可靠的服务器可以帮助您保持生产力,并确保您的员工能够高效地工作。
  • 增强客户满意度。客户希望您的应用程序始终可用。可靠的服务器可以帮助您满足客户的期望,并提高客户满意度。

更高的可靠性对于企业来说至关重要。它可以帮助您避免宕机、保护数据、提高生产力并增强客户满意度。通过遵循最佳实践,您可以提高服务器的可靠性,并确保您的应用程序始终可用。


如何增强服务器内存的可靠性和可用性?

虽然处理器是任何服务器的核心部件,但是工作负载的所有指令和数据都存储在内存中。

在如今的虚拟化数据中心中,单单一台服务器可能运行众多虚拟机,而每个虚拟机作为一个文件驻留在内存中。

但是当新的服务器添置更多更快的内存以满足更大的计算需求时,内存可靠性问题就显得尤为重要。

IT人员必须留意内存故障,并充分利用旨在增强内存可用性的服务器特性。

如今,企业级服务器采用数TB的64位内存,这些预制模块遵守联合电子设备工程委员会(JEDEC)DDR3和DDR3L(低电压)标准而设计和制造。

这样一来,企业很容易从诸多内存厂商购得价位合理的内存,但是遵守标准并不能保证可靠性。

内存可靠性面临的最大威胁并不是彻底的故障,不过可能会出现生产缺陷、电事件及其他物理异常引起的故障。

确切地说,服务器内存面临的最大威胁来自随机比特错误——某个比特出现自发逆转。

要是未加以检查,仅仅一个比特出现错误就会以突如其来、可能灾难性的方式,改动指令或改变数据流。

比特错误会自然发生。

内存模块的错误率从每兆字节内存每小时大约1比特(有时被标为1010 errors/bit*h)到每兆字节内存每百年1比特(1017 errors/bit*h)不等。

这个范围相差得太大了,但随着内存子系统速度变快、电气操作电压变低以及服务器上的内存总量增加,比特被“误解”并影响工作负载的可能性随之变得相当大。

其他因素也会加剧单比特错误,比如本底辐射(阿尔法粒子)、寄生电事件(如附近电磁干扰)、糟糕的主板屏蔽或设计,甚至DIMM插座上的电触点受到破损或质量低劣。

增强内存可用性的特性缺少可用内存始终是个问题,而奇偶校验等错误检测技术已存在了好多年。

奇偶校验很简单,对于检测单比特错误也很有效,但它纠正不了单比特错误,所以没有大量地应用于服务器。

幸好,现在有或正出现另外许多特性,有助于增强内存可靠性。

不妨考虑以下几种方案:ECC。

系统厂商们不是依赖奇偶校验,而是依赖纠错码(ECC)技术。

ECC立足于奇偶校验的基础上,它使用一种算法,为每64比特的内存创建和存储一个8比特码(每个地址总共72比特)。

这种算法和编码让系统得以实时检测和纠正单比特错误,此外还能检测多比特错误,并防止系统使用破损数据。

ECC通常是许多通用服务器上采用的确保内存可靠性的默认技术。

先进ECC。

先进ECC把ECC方法扩大到了多种内存设备,让ECC得以检测和纠正多比特故障,只要这些故障出现在同一个内存设备里面。

不过,ECC和先进ECC并不支持任何一种故障切换机制,所以为了排除有问题的内存模块,仍得关闭系统(或依赖其他系统技术)。

许多企业级服务器可以提供某种先进ECC,比如IBM ProLiant或戴尔PowerEdge。

内存错误跟踪。

应对内存错误的一方面是,首先密切跟踪内存错误。

新兴的服务器设计通过为错误率和位置做一份列表,开始密切跟踪可以纠正的错误。

一些服务器还能将错误信息保存在内存模块上的可重写串行存在检测(SPD)内存空间——可以读取该内存空间,以便将来评估和分析。

一旦系统能跟踪可以纠正的内存错误,并将该信息转移到系统的管理工具,就有可能通过记下错误率突然增加的DIMM来预测可能发生的内存故障。

错误跟踪称得上是更先进的内存可靠性特性的先驱,更先进的特性包括DIMM故障切换或在物理内存空间里面转移数据。

热备用内存。

热备用概念在磁盘存储领域很常见,但只是最近才在服务器设计流行起来。

这是由于系统必须有一定的智能,才能先识别和跟踪可以纠正的内存错误,之后才能决定把数据转移到备用内存模块上。

内存错误跟踪方面的技术进步让服务器的内存控制器得以将数据从存在的错误不可接受的DIMM转移到同一通道中的另一个备用DIMM上。

这也叫内存插槽备用(rank sparing)。

这种方法存在的不足是,为错误发生前一直非生产性的服务器增添内存需要一笔开支。

设备标记(Device tagging)。

一种内存故障切换技术是基于BIOS的技术,名为设备标记。

当系统跟踪到出现错误率增加的内存模块时,系统基本上就能把数据从有问题的内存转移到ECC内存——实际上使用ECC内存作为一个小小的热备用内存。

这有望减少内存故障,但同时无法在这部分内存里面进行错误检测和纠正。

设备标记被用作一种权宜之计,让系统保持运行,直到有问题的内存模块被换掉为止。

内存镜像。

完美的内存可靠性技术就是把服务器上内存中内容从一个通道复制到另一个配对通道上。

这实际上就是为内存建立了RAID 1机制。

如果一个通道的内存里面出现故障,内存控制器就会切换到配对通道上,没有任何干扰;完成修复工作(如果需要修复)后,通道就可以重新进行同步。

镜像方法的缺点与存储方面的RAID 1一样;由于内存中的内容被复制,存储容量减少了一半,或者说内存成本实际上翻了一番。

如今内存在现代虚拟化服务器中扮演更关键的角色,所以应对和缓解内存错误的破坏性效应显得比以往更为重要。

如何预防和应对服务器宕机及故障?

面对服务器故障,我们首先需要明确应对策略:

当服务器出现故障,首要任务是识别问题根源,包括:

一个完备的服务器故障应急预案,首要就是确保数据备份和冗余设计。备份不仅能在灾难发生时快速恢复,而且要避免常见问题,如备份流程不完整、存储空间不足或介质损坏。传统的磁带备份虽然成本低,但易受磁场干扰、丢失索引和设备损坏等问题困扰。如今,更先进的备份解决方案如云存储和镜像复制是更好的选择。

即使有备份,仍需考虑冗余设施,如使用多个电源供应源(如双路电源或UPS)和独立的网络连接。例如,知名支付公司曾因网络连接问题导致服务中断,如果有了更多冗余网络线路,影响范围将大大减小。

服务器设计时,不仅要考虑单点故障的应对,还要注重整体系统的可用性和可靠性。当灾难来临时,备份和冗余策略的结合是关键,能有效防止服务长时间中断,保障业务连续性。

总结: 了解故障原因,实施严格的备份和冗余策略,是服务器故障应对的重要步骤。只有这样,才能在突发情况下迅速恢复,降低对业务的影响。希望本文的解决方案能为您的服务器故障应急预案提供参考。

至此,服务器故障处理策略的探讨就告一段落,期待对您的实践有所帮助。

服务器寿命周期内只会关机一次,为什么能够长时间持续工作而不宕机?

首先我们先说说服务器为什么可以长期工作原因:(1)服务器虽然也是电脑,但是服务器属于特殊而且高端的机器,因为其特殊性,所以有些部件设计的与普通家用电脑更特别的地方,针对服务器其最基本的要求就是稳定性,所以服务器的处理器内置多种纠错机制,再加上服务器的内存使用的都是带ecc校验模块的内存,其作用就是用来处理服务器大型数据处里时出现的数据错误,而且在数据干扰出错风险要比非ecc内存降低很多,服务器使用的是纯铜散热器,最主要其机箱都配置4到6个高转速散热风扇,而且内置显卡基本处于不工作状态。

还有一点就是其主板都是6层以上pcb,硬盘设置使用寿命是普通硬盘的2到三倍。

这些都是为服务器长期运行提供了保障。

(2)专用操作系统例如windows server以及unix linux这类操作系统可以不需要在接显示器下,关闭图形界面的服务器程序,专用操作系统提供了更安全更稳定的保证 (3)服务器可以在不关机的状态,更换电源,一般服务器都是配置2块热插拔电源。

第二,服务器硬盘也可以在工作状态更换,即便那块硬盘出现故障,也是可以随时更换。

第三,服务器内存一般都是在8条或者12条,如果那一根内存出现错误,或者损坏,服务器一样可以正常工作。

(4)服务器可以长期运行,不关机还有一个最主要的方面是在于服务器的工作环境,一般服务器都会放至于无尘,恒温,的环境,这些在外因素也是服务器可以长期不关机的必要因素。

所以一台服务器在购买以后开始工作,基本是直到服务器达不到企业所求状态才会升级或者更换。

是电脑就可以长时间工作而不宕机。

其实关电脑这件事情挺LOW的。

W君用的计算机基本上都是随时处于待机状态。

从1992年就开始有能源之星的标准了。

由于是一个 历史 悠久的标准,那么目前大多数计算机都支持能源之星的节能策略。

即在一段时间不使用计算机即进入睡眠状态。

计算机在睡眠状态中会保持一个极低的耗电量,仅仅维持计算机内存内的数据和一些必要性的中断检测,当计算机在触动键盘或鼠标的时候计算机立即进入全速工作状态。

而进一步的计算机还可以进行休眠,即将内存数据转储在硬盘上整体进行关闭、等到再次开机的时候即就从硬盘回复内存数据还原到休眠前的状态。

休眠的过程中耗电量和关机的耗电量是一样的几乎=0。

所以说,“关机”对于一般用户实际上是没有任何意义的。

普遍意义上的计算机“关机”其实是服务于计算机的长期封存、更换部件、等需要将电源线拔出插座的场景下。

而服务器对于一般的用户来说很扛造是一个假相。

服务器并不比家用的计算机更耐用。

大部分情况下服务器工作在一个恒温恒湿除尘的机架上,并且机架的电源系统经过了稳压过滤。

这样服务器基本恒定在一个最适合计算机系统工作状态的环境中。

环境稳定的状态下计算机出故障的可能性就降低到极低了。

而家用计算机很难做到数据中心机房的标准,各种环境影响会在长期过程中对家用计算机形成伤害。

但W君也仅仅说是一个长期才会产生的影响。

很多人的计算机买来之后几个月就会出故障是因为——折腾。

不折腾是服务器系统的又一个优点,当一个服务器部署完毕后几乎就不会再对服务器进行各种的软硬件添加和修改。

维护人员仅仅对维护用的有限几个参数进行调节。

而家用计算机今天装一个某某全家桶、明天装一个某某管家、后天再下载几个破解软件无疑就给计算机的软件运行带来风险。

动不动就会出现某某内存不可读等等的错误,其实就是用户自己在作死。

说个小秘密:服务器的操作系统功能还没个人用的操作系统功能多呢。

服务器操作系统是个人用系统功能的一个子集,例如现在的windows 10专业版已经涵盖了服务器windows 2016的大部分功能。

而服务器版本的内容则是在一个windows功能全集上摘取了必要的稳定的功能子集附带了一些自己所特有需要的功能,说实话并没有个人用的功能多。

这也说明了服务器在求简单——越简单的东西越耐用。

其次不得不说的一点,哪怕是再差的服务器用料也会比大部分消费级的个人电脑强。

在服务器市场上价格基本上不是一个太大的决定因数,而针对于消费级个人电脑来说各种降低成本的方法就造就了很多个人电脑的低品质。

例如某洲笔记本为了让成本降低用可以致癌的塑料制作笔记本外壳、例如某想电脑当时在推出国内第一台万元基本的奔腾II的时候竟然给配486的标配显示卡、例如某某霸的显卡上所有电容器都是山寨货等等的因数导致了硬件本身就不合格。

所以如果不买大厂的计算机甚至自己用杂牌配件组装一台计算机,即便放在服务器环境下也会跑不起几天的。

最后再重申一下——所有电脑都可以长期使用不宕机 真正的服务器确实在设计寿命之内只有一次开机关机的操作。

当然了,重启和意外断电不算。

能保证服务器稳定运行几年不宕机,主要是服务器的硬件和软件的设计初期就把稳定性放在第一位了。

毕竟性能不够可以增加服务器,如果动不动就宕机,那就损失大了。

服务暂时终止还是小事,数据丢失那就问题大了。

所以,对于服务器来说,稳定性大于性能! 对于PC玩家来说,没遇到过蓝屏的人生是不完整的!而造成蓝屏的罪魁祸首就是内存条!电压不稳或者接触不良都会导致蓝屏。

燃鹅,在恒温恒湿的机房里内存条的金手指是不会因为生锈造成接触不良的!备用电源和强大的电源管理系统也能保证电压的稳定供给。

所以,造成蓝屏的服务器内存条是不会因为外部因素导致抽风的! 最重要的就是服务器内存条和PC内存条是不一样的,被称为ECC内存,这种内存条自带硬件的错误检查和纠正技术!这种内存条即使长期运行也不会产生错误的废品数据,系统接收的都是正常的数据,自然不能崩溃,蓝屏也就不会出现了!也就能保证服务器在设计寿命之内稳定的运行了!最重要的就是冗余电源,还有RAID5以上级别的磁盘阵列。

有的还在RAID5基础上加了热备硬盘。

服务器生命周期内很难说只会关机一次的哦。

碰到问题了,如维修维护搬迁等,那也只能关机重启不是? 服务器长时间工作会不会宕机,那要看是什么样的机器。

1.有些低端服务器实际上和一般的PC机/工作站类似,是没有所谓的冗余设计。

这种服务器会和PC一样有死机的风险。

实际上,一般的PC机也是可以改装成服务器使用的,过去就有很多人把PC改成家用或小网站的服务器,以降低成本。

2.一般的中高端服务器,一般都有冗余设计,比如电源、内存和硬盘等,冗余设计的目的就是当其中一个有故障发生时,服务器还能正常工作。

但这不包括如零部件发生短路或系统过载这些情况,比如某条闪存短路,那么还是可以造成服务器宕机的。

3.绝大部分的服务器都有自我诊断设计,当服务器零部件运行在设计指标极限时,会发出警告信号,提醒维护人员前往查看或诊断维护,避免不必要的宕机等事件发生。

4.当某台服务器宕机时,一般来说不影响外部访问,因为有备份服务器/或机房的存在。

服务器能长时间工作,当然也是和其高可靠性设计指标有关系,而机房的适宜环境温度,更进一步提高了其运行寿命。

首先服务器在设计时就考虑了长期稳定运行,几乎所有的硬件都可以带电热插拔更换,家用电脑暂时无法做到,其次服务器系统虽然跟家用系统核心一样,但为了保证长期运行,具有更好的容错管理机制,同时,服务器系统为了保证系统的稳定运行,一般不需要的组件默认是不运行的,这样降低了组件出错的概率,提升了系统的稳定性,要知道是程序就会有bug的。

再有服务器一般运行程序很单一,一般生命周期内就只跑固定的程序,减少了程序间的互相干扰,多方因素综合,造就了服务器系统可以长期稳定运行。

以前我维护的一个区级机房几台空调一个月几十万的电费,常年在20℃恒温恒湿还有除尘装置,ups拖几十个大电池,电好像也有要求忘了,环境要求很苛刻,排除黑客攻击的因素,一般情况下没有看到硬重启,至于远程重启也比较少见。

有一个老古董的服务器运行了十来年,至于有没有寿命周期我不知道,只知道几家维安公司定期巡检,会对机器检查进行评估,大部分时候是客 户要求换机器。

至于寿命周期我还真不知道。

服务器的不当机是靠硬件的冗余技术来保证的,没有什么稀奇的地方。

比如服务器是双电源,硬盘是RAID,住在机房里,一个电源坏了拔出来换,一块硬盘坏了拔出来换。

简洁回答三点 1 模块化 2 热插拔 3 热备份 你想多了,99.是指服务的,而不是单台服务器。

阅读全文
未经允许不得转载:亿动网 » 更高的可靠性:可靠的服务器可以确保您的应用程序始终可用,从而避免宕机和数据丢失。(更高的可靠性英文翻译)
分享到: 生成海报

相关推荐

  • 暂无文章
切换注册

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

切换登录

注册

我们将发送一封验证邮件至你的邮箱, 请正确填写以完成账号注册和激活