Aegis Logo AEGIS
Aegis Hybrid Observability

強韌守護,不漏一秒:
混合式帶內/帶外
伺服器集群監控平台

專為 50–500 台規模的中型資料中心與 MSP 打造。融合 Redfish 帶外硬體監控與 Prometheus 帶內系統遙測,在 OS 崩潰的至暗時刻,依然給您掌控全局的視界。

向下相容與整合:
Redfish IPMI SNMP Prometheus
Aegis Dashboard — srv-datacenter-rack-03
RACK VIEW (U1-U5)
U5: Dell R75038°C
U4: Dell R75039°C
U3: HP DL38048°C
U2: SM 220U35°C
U1: SM 220U72°C
OOB Temperature
42°C
BMC Sensor
In-Band CPU Load
24.5%
Node Exporter
Telemetries Merge (Real-time) OOB Fan In-Band RAM

傳統監控工具的掙扎,
Aegis 給出強勢解答

直面伺服器運維四大隱痛,提供無死角的監控體系。

痛點亮點:告警風暴 vs. 智慧收斂與根因分析

拖動中間滑桿,親眼見證 Aegis 如何平息混亂的告警轟炸

傳統警報風暴 (Before)
Aegis 智慧收斂 (After)
01

系統當機,監控也跟著死機?

傳統方案 (Agent):

系統核心恐慌 (Kernel Panic) 或死鎖時,帶內監控 Agent 直接停擺,維護人員在「至暗時刻」頓成盲人。

Aegis 方案 (帶外):

採用獨立於 OS 的 Redfish/IPMI BMC 通道。即便 OS 完全崩潰,依然能讀取硬體狀態、回報警訊,並支援遠端電源重啟。

02

硬體與作業系統監控割裂?

傳統方案 (多套工具):

監控電源風扇需要廠商 BMC 軟體,監控 OS 效能需要作業系統監控軟體。資訊孤島導致故障分析效率低下。

Aegis 方案 (融合):

單一儀表板,完美融合同步的帶內 Prometheus 指標與帶外底層硬體指標。全方位立體監控,消除視覺盲區。

03

傳統帶外監控配置複雜、零散?

傳統方案 (舊 BMC):

原廠 Web 介面老舊且加載慢,每台伺服器均需單獨登入;或需撰寫繁瑣的 IPMI 工具命令,難以實現統一與規模化管理。

Aegis 方案 (現代化):

提供現代化統一 Redfish 優先儀表板,向下相容 IPMI。自動識別各硬體廠商與型號,全部資源一次集中管理。

04

單點故障引發警報狂轟亂炸?

傳統方案 (無收斂):

一個機架電源損壞,連帶導致數十台伺服器重啟及上百個服務斷線,瞬間引發數千封垃圾警報簡訊,淹沒核心問題。

Aegis 方案 (收斂):

基於資料中心拓撲和時間視窗,進行多維告警收斂與根因分析。將關聯警報合併為單一根因事件,清爽精準。

核心功能展覽館

結合業界最先进的可觀測性架構,專為高規格運維場景設計。

🔍 設備自動發現

告別手動輸入。一鍵掃描指定子網段,自動探測 Redfish、IPMI 與 SNMP 端點,智慧識別 Dell, HPE, Supermicro 等主機廠商與型號,快速將成百上千台主機納入版圖。

🛡️ 帶外硬體深度監控

Redfish 優先,向下相容 IPMI/SNMP。定時輪詢硬體層,精準收集主機板溫度、風扇轉速、電壓、記憶體 ECC 錯誤與硬碟 RAID 健康狀態,掌握底層硬體心跳。

🚀 Prometheus 帶內遙測整合

免去開發專屬 Agent 的煩惱。Aegis 內建 Prometheus Scraper,直接拉取伺服器 OS 上 Node Exporter 的效能指標。硬體與作業系統數據,在同一個畫面上完美交融。

⚡ 遠端電源控制面板

人在千里之外,掌控近在眼前。當伺服器失去響應時,可直接透過網頁介面執行開機、關機、重啟、強制關斷操作,內建防誤觸的安全確認工作流,精準控制實體供電。

📍 拖拽式虛擬機架視圖

將實體機房搬到瀏覽器中。支援拖拽式機架編輯器,即時根據伺服器健康狀態著色,機房內哪台主機在發熱、哪顆硬碟亮紅燈,一目了然,空間與拓撲一體化呈现。

📊 企業級分散式探針

專為多分支機構、跨網段與跨機房架構設計。極輕量級探針在邊緣收集數據,並透過加密通道安全推送至 Aegis 核心伺服器,完美解決跨網段監控痛點。

「帶內/帶外融合」即時監控模擬器

模擬極端 OS 當機情境,感受 Aegis 帶外通道的可靠性。

系統狀態控制台

點擊按鈕切換作業系統狀態,觀察兩條通道的反應。

模擬器系統日誌 (Syslog)
[OK] srv-node-04 (Dell R750) 核心通訊啟動
[INFO] Prometheus Node Exporter 監聽埠 9100
[INFO] Redfish API 服務就緒,連線安全通道 HTTPS
主機名稱: srv-node-04 OOB IPMI / Redfish
帶內監控 (In-Band)
ACTIVE
Node Exporter: Online (Port 9100)
CPU Load: 22.4%
RAM Used: 45.2% (14.4 GB)
帶外硬體 (Out-of-Band)
CONNECTED
BMC Redfish: Online (Dell iDRAC)
Chassis Temp: 38°C
Fan 1 Speed: 4200 RPM
Power Usage: 180 W

「拖拽式虛擬機架與健康地圖」體驗區

將伺服器放入機架,並點選查看即時遙測,或模擬單一電源斷電效果。

備用伺服器

DELL
Dell PowerEdge R750 (2U)

OOB: Redfish | In-Band: OS Enabled

HPE
HPE ProLiant DL380 (2U)

OOB: Redfish | In-Band: OS Enabled

SM
Supermicro SYS-220U (2U)

OOB: IPMI | In-Band: OS Disabled

資料中心機架 A (Cabinet 42U-3U Slot)

Slot 3 (2U)
拖拽伺服器至此處 或 點擊選取後放置
Slot 2 (2U)
拖拽伺服器至此處 或 點擊選取後放置
Slot 1 (2U)
拖拽伺服器至此處 或 點擊選取後放置

請點擊機架中已部署的伺服器以檢視詳細遙測指標與遠端控制。

極致效能與高度相容:系統架構

以 Go/Rust 為核心採集引擎,完美處理大規模資料流。

互動式系統資料流向圖 (SVG Path Flow Animation)
Redfish 採集器 IPMI 採集器 SNMP 採集器 Prometheus Pull 訊息匯流排 NATS / Redis Streams 時序資料庫 Timescale / Influx 告警收斂與分析層 Web 前端呈現層 OTLP 數據導出層
滑鼠懸停在架構組件上以顯示詳細說明

Aegis 採用解耦的多層式架構,確保監控極致的高可用性與超低本地消耗。

⚡ 極低資源消耗

以 Go/Rust 打造數據採集引擎,資源消耗極低(管理 100 台設備僅需 ≤ 2 CPU cores, ≤ 4GB RAM)。

📦 智能降採樣

完美處理時間序列壓縮,並內建數據自動彙整與降採樣(Raw → 5min → 1hr → 1day),節省儲存空間。

🌐 數據開放

支援 OTLP 數據導出,您收集的帶外硬體監控指標可一鍵推送至外部大數據平台(Datadog, Splunk)。

核心優勢對比

直觀對比說明,為何 Aegis 是中型資料中心的高性價比、深度監控首選。

優勢項目 傳統監控方式 (Agent-Only / 廠商工具) Aegis 解決方案
部署與上手門檻 配置複雜,需逐台安裝 Agent 或單獨登入各廠商 BMC 網頁,上線週期長。 極低門檻,支援一鍵子網掃描與自動發現,內建主流伺服器模板。
帶外硬體管理深度 偏向作業系統層監控,硬體監控(如風扇、電壓)需手動配置第三方插件,無法作電源管理。 深入硬體層,原生支援 Redfish/IPMI 遙測與遠端電源控制,不受作業系統狀態限制。
帶內與帶外融合 硬體指標(帶外)與作業系統效能指標(帶內)割裂在完全不同的多套監控系統中。 原生內建 Prometheus 帶內 Scraper,硬體與作業系統 OS 指標統一在同一頁面呈現。
告警管理與過濾 告警規則單一,容易觸發告警風暴,單一電源故障即引發成百上千條垃圾警報。 內建智慧告警收斂引擎,基於時間與拓撲進行關聯分析,只通知最關鍵的根源故障。
外部系統整合 API 對接繁雜,難以與現有的大型觀測平台(如 Datadog、Splunk)聯動。 支援標準 OpenTelemetry (OTLP) 數據導出,完美融入現有企業級可觀測性技術棧。

產品使用者介面導覽

透過統一儀表板,Aegis 讓資料中心運維人員即刻掌握機架硬體與作業系統的雙向監控視界。

使用者介面

一個畫面,串通帶內與帶外監控

從機架資源到 BMC 傳感器,Aegis 結合 Redfish、IPMI 與 Prometheus,將所有關鍵指標集中於單一操作面板,減少切換成本並強化故障分析效率。

  • 儀表板即時總覽:自動彙總 CPU、記憶體、溫度、風扇與電源狀態。
  • 機架視圖與節點健康:視覺化顯示機架每一 U 位的溫度與健康等級。
  • 告警收斂與根因提示:智慧整理多套警報,將真正需要關注的異常一目了然。
  • 混合遙測曲線:同步呈現帶內與帶外資料,協助比對系統與硬體變化趨勢。
  • 快速操作與遠端控制:直接於介面啟動重啟、電源循環與遠端診斷流程。

部署模式與預約演示

聯絡業務與技術團隊,開啟您的 Aegis 體驗之旅。

🏢
本機集中式部署 (On-Premises)

主伺服器與時序資料庫皆部署於企業內網,確保絕對的資料安全性與隱私,適合單一資料中心運維。

🌐
分散式跨網段部署 (Multi-Site)

於各個不同分支機構或 MSP 客戶機房部署輕量級「Aegis 探針」,免除 VPN 繁複對接,加密安全回傳。

☁️
雲端混合部署 (Hybrid Ready)

支援 OpenTelemetry 數據導出,完美將地端硬體指標推送至 Datadog、Splunk 等雲原生大數據平台。

預約線上演示與 POC 申請

請填寫以下資訊,我們的技術顧問將在 24 小時內與您聯繫。