CN101076784A - 在失效期间维持数据存储系统运行的技术 - Google Patents

在失效期间维持数据存储系统运行的技术 Download PDF

Info

Publication number
CN101076784A
CN101076784A CNA2004800425608A CN200480042560A CN101076784A CN 101076784 A CN101076784 A CN 101076784A CN A2004800425608 A CNA2004800425608 A CN A2004800425608A CN 200480042560 A CN200480042560 A CN 200480042560A CN 101076784 A CN101076784 A CN 101076784A
Authority
CN
China
Prior art keywords
storage
processor
communication subsystem
interface
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2004800425608A
Other languages
English (en)
Inventor
斯蒂芬·斯特里克兰
约翰·V.·伯勒斯
蒂莫西·多尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EMC Corp
Original Assignee
EMC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EMC Corp filed Critical EMC Corp
Publication of CN101076784A publication Critical patent/CN101076784A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2089Redundant storage control functionality

Abstract

数据存储系统具有第一存储处理器、第二存储处理器和通信子系统。通信子系统具有(i)互连在第一存储处理器和第二存储处理器之间的接口部分,(ii)连到接口部分的时钟电路,及(iii)连到接口部分和时钟电路的控制器。控制器被配置成使接口部分的运行能够在第一和第二存储处理器之间提供通信、检测时钟电路内的失效、并响应于所检测的失效复位接口部分以使第一和第二存储处理器之一能够继续运行。接口部分的这种复位防止其余存储处理器锁止,因而释放该存储处理器,从而即使在失效之后也能继续运行。

Description

在失效期间维持数据存储系统运行的技术
背景
数据存储系统代表一个或多个外部主计算机保存和检索信息。典型的数据存储系统包括网络适配器、存储处理电路、一组磁盘驱动器。网络适配器在外部主计算机和存储处理电路之间提供连通性。存储处理电路执行多种数据存储操作(如装入操作、保存操作、读-修改-写操作等),并提供高速缓冲存储器,高速缓冲存储器使数据存储系统能够优化其操作(如提供高速保存、数据预取等)。磁盘驱动器组提供坚固的数据存储容量,但其是以较慢且非易失的方式提供。
某些数据存储系统的存储处理电路包括多个存储处理单元,以实现更大的可用性和/或更大的数据存储吞吐量。在这样的系统中,每一存储处理单元均能独立执行数据存储操作。
例如,一个常规的数据存储系统包括两个存储处理单元,其被配置成通过高速缓存镜像接口(CMI)相互通信以维持高速缓存一致并使高速缓存镜像磁盘写的影响最小。具体地,CMI总线使一份数据在磁盘写操作完成之前可为两个存储处理单元所用。在该系统中,第一存储处理单元具有第一CMI接口电路,第二存储处理单元具有第二CMI接口电路,第一和第二CMI接口电路通过CMI总线相互连接。
发明内容
不幸地,对上述常规数据存储系统有某些限制。例如,在该数据存储系统运行期间,在有关CMI的电路内可能有失效(如时钟失效、判优器失效等)或数据处理单元之一中有失效。例如,假如CMI接口电路之一正在CMI总线上发出指令的过程中,而这时相对的CMI接口电路中出现失效。在这种情况下,使CMI接口电路不失效的机会中止,继而锁止其存储处理单元的运行。如果其发生,则整个数据存储系统将被阻止执行进一步的数据存储操作。
另外,大多数具有多个存储处理器的常规数据存储系统包括花费昂贵的、具有多个电源的冗余电源装备,使得,如果一个电源失效,则该失效将不会使系统不工作。不幸地,如果用相对廉价的标准电源代替该冗余电源装备,则存在这样的风险:用户不注意而拔出AC线并导致不是电源失效的功率损失,因而损害其它没有失效的电路(如存储处理器)。
相比于上述常规数据存储系统,本发明的实施例致力于在失效(如布置在存储处理器之间的一部分通信子系统内的单点失效)期间维持具有多个存储处理器的数据存储系统的运行的技术。具体地,这样的技术预防不注意地锁止其余存储处理器以保持整个数据存储系统的可用性(即使存储处理器能够继续运行)。另外,这样的技术使能够使用相对便宜的标准电源向每一存储处理器单独供电,并为共享资源如通信子系统局部提供共享功率,从而既节约成本又具有可靠的失效容错度。也就是说,这些技术使能够使用低成本的商品零件以降低总成本,而不会危及整体可靠性。
本发明的一实施例为具有第一存储处理器、第二存储处理器和通信子系统的数据存储系统。通信子系统具有(i)互连在第一存储处理器和第二存储处理器之间的接口部分,(ii)连到接口部分的时钟电路,及(iii)连到接口部分和时钟电路的控制器。控制器被配置成使接口部分的运行能够在第一和第二存储处理器之间提供通信、检测时钟电路内的失效、并响应于所检测的失效复位接口部分以使第一和第二存储处理器之一能够继续运行。接口部分的这种复位防止其余存储处理器锁止,因而释放该存储处理器,从而即使在失效之后也能继续运行。
在一种方案中,通信子系统的接口部分包括连到第一存储处理器的第一接口、连到第二存储处理器的第二接口、及连到通信子系统的控制器的开关。开关位于第一和第二接口之间。在该方案中,控制器被配置成响应于或来自供电第一接口的第一电源或来自供电第二接口的第二电源的电源损失信号而断开开关。因而,其余接口提供的任何电压将不会损害已失去功率的接口。
附图说明
本发明的前述及其它目标、特征和优点将从下面结合附图给出的本发明特定实施例的描述中看出,其中在不同的图中同一附图标记指同一组件。附图不必定按比例绘制,而是强调本发明原理的图示。
图1为适于本发明使用的数据存储系统的方块图。
图2为图1的数据存储系统的通信子系统的一部分的方块图。
图3为图1的数据存储系统的通信子系统的另一部分的方块图。
图4为通信子系统在失效期间所执行的过程的流程图。
具体实施方式
本发明的实施例致力于在失效(如布置在存储处理器之间的一部分通信子系统内的单点失效)期间维持具有多个存储处理器的数据存储系统的运行的技术。具体地,这样的技术预防不注意地锁止其余存储处理器以保持整个数据存储系统的可用性(即,使存储处理器能够继续运行)。另外,这样的技术使能够使用相对便宜的标准电源向每一存储处理器单独供电,并为共享资源如通信子系统局部提供共享功率,从而既节约成本又具有可靠的失效容错度。也就是说,这些技术使能够使用低成本的商品零件以降低总成本,而不会危及整体可靠性。
图1所示为适于本发明使用的数据存储系统20。数据存储系统20被配置成代表一组外部主机22(1)、…、22(n)(统称主机22)保存和检索信息。数据存储系统20包括一个或多个网络接口(为简化起见未示出),以使数据存储系统20能够使用各种不同的协议与主机22通信,这些协议如:TCP/IP通信协议、光纤通道协议、计数-键码-数据(CKD)记录格式协议、I/O块协议等。
如图1中所示,数据存储系统20包括处理电路24和一批存储装置26(如磁盘驱动器)。处理电路24包括存储处理器28(A)、28(B)(统称为存储处理器28)和位于存储处理器28之间的高速缓存镜像接口(CMI)通信子系统30。存储处理器28被配置成代表主机22一个一个单独执行数据存储操作。存储处理器28被配置成通过CMI通信子系统30相互通信。具体地,存储处理器28根据CMI协议交换指令和数据以维持高速缓存相关性并使高速缓存镜像对整个系统性能的影响最小。
进一步地,如图1中所示,存储处理器28(A)包括电源32(A)、局部时钟34(A)、控制电路36(A)、及另外的逻辑电路38(A)。控制电路36(A)实质上是存储处理器28(A)的处理引擎,因为其基于来自电源32(A)的电源信号40(A)和来自局部时钟34(A)的时钟信号42(A)执行数据存储操作(如装入和保存操作、高速缓存操作等)。应理解的是,为了简化,将这些信号40(A)、42(A)传输给控制电路36(A)的特定电源层/线路和时钟迹线在图1中已被故意省略。
类似地,存储处理器28(B)包括电源32(B)、局部时钟34(B)、控制电路36(B)、及另外的逻辑电路38(B)。连同存储处理器28(B)一起,控制电路36(B)(即处理引擎)由来自电源32(B)的电源信号40(B)供电并由来自局部时钟34(B)的时钟信号42(B)驱动。再次声明,为了简化,将这些信号40(B)、42(B)传输给控制电路36(B)的特定电源层/线路和时钟迹线在图1中已被故意省略。
如图1进一步所图示的,通信子系统30包括共用功率源44、接口部分46和控制部分48。共用功率源44从电源32(A)、32(B)(统称为电源32)接收功率信号40(A)、40(B)(统称为功率信号40),并将共用功率(即局部共享的功率)提供给通信子系统30的各个组成部分。因此,如果电源32之一发生失效,在其余电源32提供的功率的基础上,各个组成部分应能够继续运行。
接口部分46互连在存储处理器28(A)和存储处理器28(B)之间,并在存储处理器26之间提供CMI通信通路,以使存储处理器26能够协调其运行。控制部分48控制接口部分46的运行。下面还将更详细地对通信子系统30进行阐述。
接口部分46包括连到第一存储处理器28(A)的第一接口设备50(A)、连到第二存储处理器28(B)的第二接口设备50(B)、及将接口设备50(A)、50(B)(统称为接口设备50)连在一起的CMI总线52。举例来说,每一接口设备50是密封的通用件,其一侧提供CMI接口,另一侧提供PCI接口。因此,控制电路36(A)、36(B)(统称为控制电路36)通过总线54连到接口设备50,总线54为局部PCI总线。
为支撑接口设备50的运行,通信子系统30的控制部分48包括时钟电路56、控制器58、把关器电路60和开关62。时钟电路56被配置成输出共用时钟信号64。与时钟电路56连接的接口设备50使用共用时钟信号64用于通过CMI总线52进行的通信,并使用局部时钟信号42(A)、42(B)(统称为局部时钟信号42)用于通过局部总线54进行的通信。通过接口设备50的虚线意于图示说明接口设备50基于这些时钟信号64、42的局部同步运行。
与时钟电路56和接口设备50连接的控制器58被配置成使能接口部分46(即接口设备50)的运行,因而使能通过CMI总线52在存储处理器28之间进行通信。为防止通信子系统30锁止整个数据存储系统20,控制器58被配置成检测和处理某些临界特性的失效。例如,控制器58被配置成检测时钟电路56内的失效(如时钟信号64的损失),并响应于所检测到的失效复位接口部分46以使存储处理器28之一能够继续运行,从而维持数据存储系统20的整体可用性。关于该特征的详细情况还将结合图2进行说明。
图2所示为通信子系统30的控制器58和把关器电路60。控制器58包括时钟输入70、判优器电路72和除法器74。把关器电路60包括把关器阶段76和输出阶段78。把关器阶段76包括分别对应于存储处理器28(A)、28(B)的各个把关器元件80(A)、80(B)(统称为把关器元件80)。类似地,输出阶段78包括各个输出元件82(A)、82(B)(统称为输出元件82),其分别连到接口设备50(A)、50(B)因而分别对应于存储处理器28(A)、28(B)。
在运行期间,时钟输入70从时钟电路56接收共用时钟信号64,判优器电路72根据CMI协议协调存储处理器28之间的操作。另外,除法器74(如计数器)计数时钟信号64的时钟脉冲,并分别将除法器信号84(A)、84(B)(统称为除法器信号84)输出给把关器元件80。每一除法器信号84具有较时钟信号64长的周期。在一种方案中,除法器74是除以32电路,其将时钟频率截除为32段。在其它方案中,除法器74为除以64电路,其将时钟频率截除为64段。
把关器阶段76的把关器元件80监视除法器信号84以监视心跳即时钟脉冲,如果在预定时间周期内(如几秒)没有看见时钟脉冲,则遵照接口设备50行事。具体地,把关器元件80(A)向输出元件82(A)提供控制信号86(A),其控制输出信号88(A)是使能还是复位存储处理器28(A)的接口设备50(A)。类似地,把关器元件80(B)向输出元件82(B)提供控制信号86(B),其控制输出信号88(B)是使能还是复位存储处理器28(B)的接口设备50(B)。
该操作使把关器电路60能够复位接口部分46,从而在时钟电路44或判优器电路72有失效时避免中止整个数据存储系统20。具体地,只要把关器元件80在预定时间周期内接收时间脉冲,把关器元件80指示输出元件82使能接口设备50的运行。然而,如果把关器元件80(如输出元件82(B))因未能在超时周期内接收到时钟脉冲而超时,则把关器元件80输出错误信号(如控制信号86(B)的不同电压),其使得相应的输出元件82(如输出元件82(B))输出复位信号(如输出信号88(B)内的复位脉冲,见图2),从而复位其各自的接口设备50(如接口设备50(B))。在一种方案中,接口设备50保持复位模式,直到整个数据存储系统20执行恢复或复位过程为止。
如上所述,在通信子系统30内单点失效之后(如时钟电路56或判优器72失效),以允许存储处理器28(如存储处理器28(B))以容错方式维持运行的方式,复位的接口设备50被有效地停用。也就是说,存储处理器28不由其接口设备50锁止,而是能够继续代表主机22执行数据存储操作。本发明的实施例的进一步详细描述将结合图3给出。
图3示出了控制器58的另一部分90。如图所示,控制器58的部分90包括电压监控器92(A)、92(B),其分别连到存储处理器28(A)、28(B)的电源32(A)、32(B)以接收电源信号40(A)、40(B)。电压监控器92(A)、92(B)(统称为电压监控器92)还连到沿CMI总线52布置的开关62(参见图1)。
部分90被配置成控制CMI总线52的电学通路的连通性。具体地,只要部分90接收到电源信号40(A)、40(B),部分90提供开关信号94(A)、94(B),其闭合开关62因而连接接口50。
然而,假设电源32之一(如电源32(B))失效。在这种情形下,当相应的电压监控器92(如电压监控器92(B))未能接收到其各自的电源信号40(如电源信号40(B))时,电压监控器92断开开关62(如改变开关信号94(B)的电压)以中断CMI总线52的电学通路。因此,失效的存储处理器28的接口设备50不会被其余存储处理器28的接口设备50的电压输出损害(例如,当接口设备50(B)未被供电时,接口设备50(B)的输出驱动器不会被接口设备50(A)提供的电压永久损害)。此外,CMI总线52的拉起将防止接口设备50(A)免遭继续的损害。由于没有长期损害,与从失效恢复正常相关的时间耗费、努力及成本均将最小。本发明实施例的进一步详细描述将结合图4给出。
图4是在特定失效期间通信子系统30的把关器电路60的运行过程100的流程图。在步骤102,当存储处理器28执行数据存储操作时,把关器电路60使通信子系统30的接口设备50能够在存储处理器28之间提供CMI通信。
在步骤104,把关器电路60检测通信子系统的关键部分内的失效。例如,把关器电路60确定时钟电路56或判优器72是否已失效。
在步骤106,把关器电路60响应于所检测到的失效复位通信子系统30的接口部分46,以使存储处理器28之一能够继续运行。这样的运行使得即使在发生失效之后数据存储系统20仍能保持可用。
如上所述,本发明的实施例致力于在失效(如位于存储处理器28之间的一部分通信子系统30内的单点失效)期间维持具有多个存储处理器28的数据存储系统20的运行的技术。具体地,这样的技术预防不注意地锁止其余存储处理器28以保持整个数据存储系统20的可用性(即,使存储处理器28能够继续运行)。另外,这样的技术使能够使用相对便宜的标准电源32(A)、32(B)向每一存储处理器28(A)、28(B)单独供电,并为共享资源如通信子系统30局部提供共享功率,从而既节约成本又具有可靠的失效容错度。也就是说,这些技术使能够使用低成本的商品零件以降低总成本,而不会危及整体可靠性。
在本发明已结合其优选实施例进行特别示出和描述的同时,本领域技术人员应该理解的是,在不脱离后附权利要求确定的本发明精神和范围的情况下可进行各种形式和细节的变化。
例如,应理解的是,仅作为例子,存储处理电路24之间的通信通路在上面被阐释为CMI总线。其它通信通路也适于使用,如标准通信通道,包括PCI总线、GP/IO线路、无线通路、光学通路等。
另外,应理解的是,仅作为例子,数据存储系统20在上面被描述为包括两个存储处理器28。在其它方案中,数据存储系统20具有不同数量的存储处理器28(如三个、四个等)。此外,这些方案可包括不同的通信配置,如多点总线协议,而不是CMI通道。这样的修改和增强均属于本发明的不同实施例。

Claims (10)

1、数据存储系统,包括:
第一存储处理器;
第二存储处理器;和
通信子系统,其具有(i)互连在第一存储处理器和第二存储处理器之间的接口部分,(ii)连到接口部分的时钟电路,及(iii)连到接口部分和时钟电路的控制器;控制器被配置成:
使接口部分的运行能够在第一和第二存储处理器之间提供
通信;
检测时钟电路内的失效;及
响应于所检测到的失效复位接口部分以使第一和第二存储处理器之一能够继续运行。
2、根据权利要求1的数据存储系统,其中通信子系统的控制器包括:
把关器阶段,其被配置成响应于预定超时周期内时钟电路的时钟信号损失而产生错误信号。
3、根据权利要求2的数据存储系统,其中通信子系统的接口部分包括连到第一存储处理器的第一接口设备、连到第二存储处理器的第二接口设备、及将第一和第二接口设备连在一起的通信总线;且其中通信子系统的控制器还包括:
连到把关器阶段的输出阶段,输出阶段被配置成响应于错误信号而向第一接口设备提供复位信号,复位信号使第二存储处理器能够继续运行。
4、根据权利要求1的数据存储系统,其中通信子系统的接口部分包括:
高速缓存镜像接口(CMI)总线;
第一接口设备,其具有连到第一存储处理器的第一PCI接口和连到CMI总线的第一CMI接口;及
第二接口设备,其具有连到第二存储处理器的第二PCI接口和连到CMI总线的第二CMI接口。
5、根据权利要求1的数据存储系统,其中通信子系统的接口部分包括:
连到第一存储处理器的第一接口;
连到第二存储处理器的第二接口;及
连到通信子系统的控制器的开关,开关位于第一和第二接口之间。
6、根据权利要求5的数据存储系统,其中第一存储处理器从第一电源接收功率,其中第二存储处理器从第二电源接收功率,且其中通信子系统的控制器还被配置成:
响应于第一和第二电源之一的电源信号损失而断开开关。
7、具有第一存储处理器和第二存储处理器的数据存储系统的通信子系统,该通信子系统包括:
被配置以使第一存储处理器和第二存储处理器互连的接口部分;
连到接口部分的时钟电路;及
连到接口部分和时钟电路的控制器,控制器被配置成:
使接口部分的运行能够在第一和第二存储处理器之间提供通信;
检测时钟电路内的失效;及
响应于所检测到的失效复位接口部分以使第一和第二存储处理器之一能够继续运行。
8、在具有(i)第一存储处理器、(ii)第二存储处理器、及(iii)连到第一和第二存储处理器的通信子系统的数据存储系统中,用于在通信子系统内出现失效期间运行数据存储系统的方法,该方法包括:
在第一和第二存储处理器执行数据存储操作的同时,使通信子系统的运行能够在第一和第二存储处理器之间提供通信;
检测通信子系统的关键部分内的失效;及
响应于所检测到的失效复位通信子系统的接口部分以使第一和第二存储处理器之一能够继续运行。
9、根据权利要求8的方法,其中通信子系统的关键部分包括时钟电路;其中检测失效包括:
响应于预定超时周期内时钟电路的时钟信号损失而产生错误信号;
其中通信子系统包括连到第一存储处理器的第一接口设备、及连到第二存储处理器的第二接口设备,第一和第二接口设备通过通信总线连接在一起;且其中复位接口部分包括:
向第一接口设备输出复位信号以使第二存储处理器能够继续运行。
10、根据权利要求8的方法,其中通信子系统的接口部分包括连到第一存储处理器的第一接口和连到第二存储处理器的第二接口;其中该方法还包括:
响应于所检测到的失效断开第一和第二接口之间的开关;
其中通信子系统的关键部分包括(i)被配置为从第一存储处理器的第一电源接收第一电源信号的第一电源输入,及(ii)被配置为从第二存储处理器的第二电源接收第二电源信号的第二电源输入;且其中断开开关包括:
响应于第一和第二电源信号之一的损失而中断第一和第二接口之间的电学通路。
CNA2004800425608A 2004-03-25 2004-12-10 在失效期间维持数据存储系统运行的技术 Pending CN101076784A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/808,839 2004-03-25
US10/808,839 US7293198B2 (en) 2004-03-25 2004-03-25 Techniques for maintaining operation of data storage system during a failure

Publications (1)

Publication Number Publication Date
CN101076784A true CN101076784A (zh) 2007-11-21

Family

ID=35055781

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2004800425608A Pending CN101076784A (zh) 2004-03-25 2004-12-10 在失效期间维持数据存储系统运行的技术

Country Status (5)

Country Link
US (1) US7293198B2 (zh)
EP (1) EP1733306A2 (zh)
JP (1) JP2007534054A (zh)
CN (1) CN101076784A (zh)
WO (1) WO2005101991A2 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7281150B1 (en) 2004-03-26 2007-10-09 Emc Corporation Methods and apparatus for controlling operation of a data storage system
TWI306241B (en) * 2004-07-12 2009-02-11 Infortrend Technology Inc A controller capable of self-monitoring, a redundant storage system having the same, and its method
JP4529767B2 (ja) * 2005-04-04 2010-08-25 株式会社日立製作所 クラスタ構成コンピュータシステム及びその系リセット方法
US8166162B2 (en) * 2009-10-01 2012-04-24 At&T Intellectual Property I, L.P. Adaptive customer-facing interface reset mechanisms
US9003129B1 (en) 2012-03-30 2015-04-07 Emc Corporation Techniques for inter-storage-processor cache communication using tokens
CN110750374A (zh) * 2018-07-23 2020-02-04 迈普通信技术股份有限公司 一种看门狗电路及其控制方法
JP2020086538A (ja) * 2018-11-15 2020-06-04 株式会社日立製作所 計算機システム、及びデバイス管理方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5283792A (en) * 1990-10-19 1994-02-01 Benchmarq Microelectronics, Inc. Power up/power down controller and power fail detector for processor
US5774640A (en) * 1991-10-21 1998-06-30 Tandem Computers Incorporated Method and apparatus for providing a fault tolerant network interface controller
US5884018A (en) 1997-01-28 1999-03-16 Tandem Computers Incorporated Method and apparatus for distributed agreement on processor membership in a multi-processor system
US5991844A (en) * 1998-04-17 1999-11-23 Adaptec, Inc. Redundant bus bridge systems and methods using selectively synchronized clock signals
US6633905B1 (en) * 1998-09-22 2003-10-14 Avocent Huntsville Corporation System and method for accessing and operating personal computers remotely
US6733446B2 (en) * 2000-01-21 2004-05-11 Medtronic Minimed, Inc. Ambulatory medical apparatus and method using a telemetry system with predefined reception listening periods
US6678639B2 (en) * 2000-08-04 2004-01-13 Sun Microsystems, Inc. Automated problem identification system
US6681282B1 (en) * 2000-08-31 2004-01-20 Hewlett-Packard Development Company, L.P. Online control of a multiprocessor computer system
US6910148B1 (en) * 2000-12-07 2005-06-21 Nokia, Inc. Router and routing protocol redundancy
US6785678B2 (en) 2000-12-21 2004-08-31 Emc Corporation Method of improving the availability of a computer clustering system through the use of a network medium link state function
US7039737B1 (en) * 2003-12-12 2006-05-02 Emc Corporation Method and apparatus for resource arbitration

Also Published As

Publication number Publication date
US20050223284A1 (en) 2005-10-06
EP1733306A2 (en) 2006-12-20
JP2007534054A (ja) 2007-11-22
WO2005101991A3 (en) 2007-05-03
US7293198B2 (en) 2007-11-06
WO2005101991A2 (en) 2005-11-03

Similar Documents

Publication Publication Date Title
US8423818B2 (en) Disk array apparatus and method for controlling the same
Spainhower et al. IBM S/390 parallel enterprise server G5 fault tolerance: A historical perspective
US7383399B2 (en) Method and apparatus for memory compression
US8074105B2 (en) High data availability SAS-based RAID system
US5991844A (en) Redundant bus bridge systems and methods using selectively synchronized clock signals
US7600157B2 (en) Recovering from a failed I/O controller in an information handling system
US7565567B2 (en) Highly available computing platform
CN1232916C (zh) 用于在故障出现时维持全部性能的文件服务器的双尾故障终止
US20040078663A1 (en) Information processing system and disk control method used in the same
US10402104B2 (en) Devices and methods for a data storage device
WO2006019643A1 (en) Performing a preemptive reconstruct of a fault-tolerant raid array
JPH03184130A (ja) ソフトウェアの誤り処理方法
US20120297135A1 (en) Redundant array of independent disks system with inter-controller communication and method of operation thereof
JP2006302287A (ja) 冗長i/oインターフェース管理
US7590885B2 (en) Method and system of copying memory from a source processor to a target processor by duplicating memory writes
JP2004326775A (ja) 分散ノード環境におけるfru障害分離のための機構
JP2007200299A (ja) データ記憶システムに配置された記憶アレイを再構成するための装置及び方法
US8161316B1 (en) Managing loop interface instability
CN101076784A (zh) 在失效期间维持数据存储系统运行的技术
US8381027B1 (en) Determining alternate paths in faulted systems
US20070294600A1 (en) Method of detecting heartbeats and device thereof
US8065556B2 (en) Apparatus and method to manage redundant non-volatile storage backup in a multi-cluster data storage system
WO2022155919A1 (zh) 一种故障处理方法、装置及系统
US8095828B1 (en) Using a data storage system for cluster I/O failure determination
US7917665B1 (en) Method and system for minimizing unnecessary topology discovery operations by managing physical layer state change notifcations in storage systems

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20071121