Każdy z nas zna to uczucie, kiedy podczas nagłego braku prądu utracimy całą niezapisaną pracę. Odzyskiwanie danych jest możliwe, ale biznes nie może sobie pozwolić na przestój. Na przestój nie mogą sobie również pozwolić banki czy szpitale, gdzie nawet duże awarie nie powinny przerywać ciągłości pracy. Najlepiej więc znaleźć i wzmocnić najsłabsze ogniwa, które potencjalnie mogą stać się kamyczkiem powodującym lawinę. Słowem, czas poszukać pojedynczych punktów awarii (single point of failure).
Podobnie jak w procesie tworzenia backupu i odzyskiwania danych, jesteśmy bezpieczni w takim stopniu, ile kopii posiadamy. Single point of failure w firmowej infrastrukturze to nic innego jak brak redundancji, czyli odpowiedniego zreplikowania lub dywersyfikacji urządzeń, dostawców czy oprogramowania. Odpowiednio zaprojektowana redundancja pozwala na stworzenie infrastruktury wysokiej dostepności (High Availability, w skrócie HA), która jest niezastąpiona w przypadku reakcji na awarię związaną z zasilaniem, utratą bądź zniszczeniem sprzętu, utratą danych i innymi losowymi sytuacjami.
Takie same zagrożenia dotyczą zarówno ogromnych centrów biznesowych, jak i małych biznesów. Oczywiście w zależności od wielkości organizacji inne będą możliwości reakcji na awarię a wcześniej jej przeciwdziałania (od liczby nadmiarowych urządzeń i łączy po Disaster Recovery). Niemniej należy podjąć środki zaradcze na miarę własnych możliwości.
Single point of failure może dotyczyć każdego elementu infrastruktury (jak widać na poniższej grafice), dlatego przyjrzyjmy się każdej warstwie – od komputerów osobistych, przez maszyny wirtualne, infrastrukturę sieciową aż po czynniki fizyczne. Czasem drobiazg może zagrozić istnieniu firmy.
Architektura redundantna bez SPOF
Komputery pracowników to jedne z najbardziej narażonych na uszkodzenia lub utratę urządzenia w każdej organizacji. Źle postawiony przez użytkownika kubek lub kradzież z samochodu i czasami tygodnie pracy idą w zapomnienie. Bez komputera nie uruchomimy potrzebnej w procesie maszyny albo nie wyślemy istotnego zamówienia i domino zaczyna się walić.
Tutaj zabezpieczyć musimy się na dwóch poziomach, ale na szczęście nie wymaga to ani dużego nakładu finansowego, ani mnóstwa pracy. Chodzi o stworzenie dodatkowego miejsca na dane, z którego w razie utraty komputera możemy odtworzyć system i zawartość dysków.
Pierwszy poziom to zapasowy fizyczny komputer w biurze, który w razie potrzeby jest zawsze dostępny.
Drugi to przechowywanie danych w środowisku wirtualnym. Najbezpieczniej, jeśli będzie to firmowy serwer, w którym po zalogowaniu się będziemy mieli dostęp do wszystkich swoich plików. W najmniejszych organizacjach wystarczy nawet zewnętrzny hosting.
Byłoby bardzo niedobrze, gdyby mimo wszystko taka przestrzeń pozostawała pusta, dlatego atutem będzie automatyczna synchronizacja lub uczulenie pracowników na konieczność zapisywania plików w odpowiednim miejscu.
Jeśli coś jest wirtualne, to nie znaczy, że nie może się zepsuć, dlatego replikacja dotyczy również maszyn wirtualnych. Np. w przypadku wirtualnych kontrolerów Wi-Fi brak redundancji może dotknąć całą sieć doprowadzić do problemów w wielu miejscach jednocześnie. Rozwiązaniem okazuje się nie tylko wirtualizacja, ale również hiperkonwergencja. Konfigurując oprogramowanie, musimy zadbać o odpowiednie algorytmy, które zapewnią, że infrastruktura zwirtualizowana będzie działała nieprzerwanie.
Zapobieganie single point of failure w warstwie wirtualizacji
Przełączniki, firewalle, serwery, kontrolery Wi-Fi – dobrze mieć więcej niż jedno urządzenie, ponieważ konfigurując ich działanie, możemy stworzyć klastry, czyli połączone w grupy rozwiązania, które pełnią taką samą funkcję. Kiedy jeden z nich przestanie działać – pozostałe przejmują jego funkcję.
Każde urządzenie, nie tylko sieciowe, samo w sobie może być w jakiś sposób redundantne. Kupując serwer lub wybierając macierz, warto sprawdzić, czy ma na przykład dwa zasilacze, lub czy w przypadku awarii oferuje funkcję hot-swap (wymiana karty bez wyłączania urządzenia).
Pojedynczy punkt awarii w warstwie sieciowej
Dwa najgorsze możliwe scenariusze w dzisiejszych czasach to brak prądu i brak internetu.
Chociaż blackouty obecnie zdarzają się rzadko, to ich częstotliwość będzie się zwiększać. Zmiany klimatyczne i rosnące temperatury w połączeniu z niestety niewydolnym systemem energetycznym już teraz doprowadzają do nadmiernego obciążenia sieci. Na taką ewentualność idealne są automatyczne agregaty prądotwórcze. Ogromny koszt i konieczność zapewnienia odpowiednich warunków sprawiają jednak, że mogą sobie na nie pozwolić największe firmy i obiekty wrażliwe jak banki czy szpitale. Mniejsze firmy mogą wyposażyć się w urządzenia UPS, które podtrzymają zasilanie przez okres od kilku do kilkudziesięciu minut. W tym czasie zdążymy zapisać niedokończone projekty lub przetrzymamy chwilowy brak zasilania.
Zarówno dla prądu jak i internetu ryzykowne są okoliczne roboty ziemne. Jeden niewłaściwy ruch operatora koparki i przerwane zostają kable. Tu kluczem będzie dywersyfikacja dostawców. Nie zawsze jest to możliwe, szczególnie w mieście, gdzie występuje tylko jeden operator energii lub jedna infrastruktura światłowodowa. Jeśli jednak mamy taką możliwość – warto to zrobić. W przypadku internetu sprawa będzie prostsza, ponieważ w zanadrzu możemy mieć połączenie radiowe lub satelitarne.
Na koniec rzadkie, ale nie nieprawdopodobne pożary i zalania. Co z tego, że posiadamy dwa serwery, jeśli znajdują się w tym samym, zalanym pomieszczeniu? Jeśli pozwalają na to warunki, można rozważyć przeniesienie nadmiarowej infrastruktury w inne miejsce – np. do innego budynku, innnej części miasta.
Zapobieganie SPOF poprzez redundancję łączy (możliwa też dywersyfikacja dostawców)
Nie da się w pełni wyeliminować zagrożenia związanego z single point of failure, zwłaszcza wobec zdarzeń losowych. Dokładna analiza systemu i wdrożenie środków bezpieczeństwa we wskazanych powyżej obszarach pozwolą je jednak znacząco zminimalizować. Tak jak przy kopii zapasowej, trzeba też regularnie testować zabezpieczenia i w miarę możliwości reagować na wykryte i wykazane w raporcie słabości.
Poza fizycznymi i software’owymi rozwiązaniami należy zawsze pamiętać o procedurach, szczególnie tych związanych właśnie z backupem czy odzyskiwaniem danych. Kiedy wszystko inne zawiedzie – istnieje szansa na odzyskanie chociaż części pracy i uniknięcie katastrofy.