遇到多集群場景問題
多達上百個集群數(shù),而有些業(yè)務(wù)系統(tǒng)擁有多個集群,其多集群場景特點有:
服務(wù)發(fā)現(xiàn)隔離:Prometheus的服務(wù)發(fā)現(xiàn)機制無法發(fā)現(xiàn)多個集群的被監(jiān)控對象;
網(wǎng)絡(luò)隔離:跨集群可能存在連通性問題;
業(yè)務(wù)需求:業(yè)務(wù)系統(tǒng)可能需要跨集群聚合數(shù)據(jù)。
只用Prometheus能解決嗎?
Prometheus本身只支持單機部署,沒有自帶支持集群部署,對于集群化和水平擴展,官方和社區(qū)都沒有銀彈,需要合理選擇VictoriaMetrics、Thanos等開源方案或自研方案。Prometheus的存儲空間也受限于單機磁盤容量,磁盤容量決定了單個Prometheus所能存儲的數(shù)據(jù)量,數(shù)據(jù)量大小又取決于被采集服務(wù)的指標數(shù)量、服務(wù)數(shù)量、采集速率以及數(shù)據(jù)過期時間。在數(shù)據(jù)量大的情況下,我們可能就需要做很多取舍,比如丟棄不重要的指標、降低采集速率、設(shè)置較短的數(shù)據(jù)過期時間等。 Argus運維監(jiān)控系統(tǒng)配備統(tǒng)一的事件分析概覽,各類事件統(tǒng)計結(jié)果一覽無余。推薦運維監(jiān)控好處
運維監(jiān)控數(shù)據(jù)治理:
1、分析決策層:基于公共維度層封裝具體的分析決策場景;結(jié)合低代碼和看 板,形成運維BI分析平臺??捎蓪I(yè)團隊和工具團隊共同建 設(shè)。實現(xiàn)真正的以數(shù)據(jù)驅(qū)動作業(yè)。
2、公共維度層:建立數(shù)據(jù)資產(chǎn)清單,加工后的元數(shù)據(jù)進行數(shù)據(jù)的生命周期管 理、數(shù)據(jù)血緣分析、完整性監(jiān)控、綜合指標管理。此層數(shù)據(jù) 由工具研發(fā)團隊實現(xiàn)。
3、元 數(shù) 據(jù) 層:基于現(xiàn)有自動化、監(jiān)控、日志、C M D B、云管、云平臺等常 用系統(tǒng)封裝插件式的數(shù)據(jù)處理工具,做到數(shù)據(jù)按需所取,標 準接入。按需索取,不做全量的數(shù)倉平臺。 天津運維監(jiān)控套餐Argus基于Zabbix的IT運維監(jiān)控平臺。
對于網(wǎng)絡(luò)設(shè)備的監(jiān)控,也一般從設(shè)備性能、質(zhì)量、狀態(tài)等維度入手。對于每臺網(wǎng)絡(luò)設(shè)備來說運維同學(xué)一般會關(guān)注如下等高頻場景:
網(wǎng)絡(luò)設(shè)備的運行狀態(tài)syslog(設(shè)備運行日志)的監(jiān)控與告警;設(shè)備堆疊狀態(tài)下的(例如交換機堆疊)的監(jiān)控與告警;網(wǎng)絡(luò)設(shè)備上每個物理端口的、流量、包量、錯包與端口狀態(tài)的監(jiān)控與告警;網(wǎng)絡(luò)設(shè)備上邏輯端口(物理端口組合)的性能與狀態(tài)。
對于網(wǎng)絡(luò)設(shè)備的syslog告警來說,同樣也會面臨諸如:不同的廠商、設(shè)備類型與設(shè)備型號日志標準不統(tǒng)一等問題。
所以對于網(wǎng)絡(luò)設(shè)備syslog監(jiān)控告警來說,首先是將眾多的網(wǎng)絡(luò)設(shè)備進行邏輯分組,以便于在一個分組內(nèi)的設(shè)備均可以響應(yīng)同一個告警關(guān)鍵字,并且這個分組粒度建議較細,這樣才能保障告警關(guān)鍵字的有效性與獨一性。在這里根據(jù)多年的運維經(jīng)驗,建議syslog告警的分組模型由四個維度組成:廠商+類型+型號+用途例如:CISCO+交換機+EX43000-24T+內(nèi)網(wǎng)接入層交換機,通過這個公式就描述出一個設(shè)備的邏輯分組。
一般公司里的運維,大致可以分為基礎(chǔ)運維、應(yīng)用運維、運維開發(fā)、監(jiān)控組四大部分,而運維監(jiān)控是所有運維的基礎(chǔ)。1、基礎(chǔ)運維,負責(zé)IDC運維,服務(wù)器上下架,網(wǎng)絡(luò)設(shè)備等。2、應(yīng)用運維,也就是systemadministrator,系統(tǒng)管理員。3、運維開發(fā),負責(zé)運維工具的開發(fā),系統(tǒng)開發(fā)等,例如開發(fā)監(jiān)控系統(tǒng),代碼發(fā)布系統(tǒng)。4、監(jiān)控組,也就是24小時值班的工作人員,需要時刻關(guān)注服務(wù)器,網(wǎng)站的狀況,出現(xiàn)問題后,盡快時間聯(lián)系相關(guān)運維以及研發(fā)人員。Argus運維監(jiān)控系統(tǒng)數(shù)據(jù)采集與業(yè)務(wù)分析 展現(xiàn)分離架構(gòu)。
Argus運維監(jiān)控系統(tǒng)基于ZABBIX的預(yù)處理及自動發(fā)現(xiàn)功能,有效整合PROMETHEUS。
環(huán)境復(fù)雜 :在現(xiàn)有的架構(gòu)環(huán)境中,既有虛擬主機,又有 Kubernets 集群
監(jiān)控工具多 : 在現(xiàn)有的環(huán)境中的監(jiān)控工具既有zabbix,又有 prometheus § Zabbix的監(jiān)控項及Prometheus的配置仍為大量的 手工操作 § 每套工具有單獨的技術(shù)棧,維護成本高
無統(tǒng)一化告警人管理 :zabbix及grafana中都有告警人配置
數(shù)據(jù)采集 : Prometheus 負責(zé)Exporter及 Kubernets集群的 監(jiān)控項采集,并單獨于Kubernets集群外部署 § Zabbix負責(zé)虛擬主機監(jiān)控項的采集
事件處理 : Zabbix 通過HTTP agent 方式查詢不同的 prometheus 采集節(jié)點,并通過監(jiān)控項模板中監(jiān)控項 的預(yù)處理及自動發(fā)現(xiàn)功能自動創(chuàng)建不同應(yīng)用名稱的監(jiān) 控項及監(jiān)控項閾值 § Zabbix 通過不同監(jiān)控項的當前數(shù)據(jù)判斷閾值并觸 發(fā)不同閾值級別下相應(yīng)的動作 § 各閾值動作通過應(yīng)用名關(guān)聯(lián)不同的用戶組,觸發(fā) 釘釘通知到對應(yīng)的研發(fā)團隊 Argus運維監(jiān)控系統(tǒng)可手動設(shè)置貼合業(yè)務(wù)的事件聚合規(guī)則、消息分派規(guī)則,并可查看與管理事件集、事件。技術(shù)運維監(jiān)控供應(yīng)
想要做好運維監(jiān)控,這個命題很大,可想而知不是只要做好一件兩件的事就能實現(xiàn),必定是成體系、成規(guī)范。推薦運維監(jiān)控好處
在信息系統(tǒng)的生命周期中,一般系統(tǒng)建設(shè)的時間大約為一年,而系統(tǒng)使用運維的時間大約四到七年或更長,因此,業(yè)界提出了“三分建設(shè),七分管理”的運維監(jiān)控管理。經(jīng)過大致兩輪的信息化建設(shè),企業(yè)信息化將逐步趨于成熟,后續(xù)信息化工作的重點之一便是做好系統(tǒng)的運維工作,保障系系統(tǒng)平穩(wěn)運行,支撐業(yè)務(wù)發(fā)展。
信息保障部門日常運行管理條塊分割,網(wǎng)絡(luò)、應(yīng)用、IT基礎(chǔ)環(huán)境等資源需要不同技能分工人員,在不同時段值守,當網(wǎng)絡(luò)設(shè)備發(fā)生變化時,無法迅速的適應(yīng)。各類業(yè)務(wù)應(yīng)用系統(tǒng)缺乏針對性的管理平臺,單從網(wǎng)元和資源個體進行管理的角度無法解決業(yè)務(wù)系統(tǒng)的監(jiān)控要求,因為業(yè)務(wù)系統(tǒng)是由多個關(guān)聯(lián)資源及其關(guān)聯(lián)關(guān)系組成,一旦業(yè)務(wù)系統(tǒng)出現(xiàn)運行過慢、無法登錄、應(yīng)用報錯等問題時,難以排查具體的故障點,從而影響業(yè)務(wù)系統(tǒng)故障恢復(fù),也不利于業(yè)務(wù)系統(tǒng)的性能調(diào)優(yōu),造成單位IT資源與IT管理人員的“雙高”負荷運轉(zhuǎn)。沒有統(tǒng)一的實時監(jiān)控IT運維是依托經(jīng)驗式、補救式的事后運維。同樣的IT故障引發(fā)大范圍報障,需要通過監(jiān)控鎖定故障源合并事件;同樣的IT故障在缺乏監(jiān)控數(shù)據(jù)描述和處置經(jīng)驗的支撐時,擅長不同技能的運維工程師處理效率有天壤之別;同樣的IT故障高頻復(fù)發(fā),需要監(jiān)控的分析優(yōu)化資源配置。 推薦運維監(jiān)控好處
上海觀縱科技有限公司是一家集生產(chǎn)科研、加工、銷售為一體的****,公司成立于2022-11-14,位于上海市奉賢區(qū)望園南路1288弄80號1904、1909室。公司誠實守信,真誠為客戶提供服務(wù)。公司主要經(jīng)營webfunny前端監(jiān)控,webfunny前端埋點,全鏈路應(yīng)用性能監(jiān)控,Argus-IT運維監(jiān)控,公司與webfunny前端監(jiān)控,webfunny前端埋點,全鏈路應(yīng)用性能監(jiān)控,Argus-IT運維監(jiān)控行業(yè)內(nèi)多家研究中心、機構(gòu)保持合作關(guān)系,共同交流、探討技術(shù)更新。通過科學(xué)管理、產(chǎn)品研發(fā)來提高公司競爭力。公司與行業(yè)上下游之間建立了長久親密的合作關(guān)系,確保webfunny前端監(jiān)控,webfunny前端埋點,全鏈路應(yīng)用性能監(jiān)控,Argus-IT運維監(jiān)控在技術(shù)上與行業(yè)內(nèi)保持同步。產(chǎn)品質(zhì)量按照行業(yè)標準進行研發(fā)生產(chǎn),絕不因價格而放棄質(zhì)量和聲譽。上海觀縱科技有限公司以誠信為原則,以安全、便利為基礎(chǔ),以優(yōu)惠價格為webfunny前端監(jiān)控,webfunny前端埋點,全鏈路應(yīng)用性能監(jiān)控,Argus-IT運維監(jiān)控的客戶提供貼心服務(wù),努力贏得客戶的認可和支持,歡迎新老客戶來我們公司參觀。