【ITBEAR】在互聯(lián)網(wǎng)產(chǎn)品的絲滑體驗背后,是復(fù)雜系統(tǒng)和眾多工程師的默默支撐。其中,監(jiān)控平臺在確保高并發(fā)業(yè)務(wù)穩(wěn)定運行中扮演著舉足輕重的角色。融云,作為全球領(lǐng)先的通信云服務(wù)商,一直致力于提供高可用架構(gòu)以保障其服務(wù)的穩(wěn)定性。
據(jù)悉,融云的架構(gòu)能夠保障每日高達(dá)3572億的消息量實現(xiàn)100%送達(dá),這得益于其強大的技術(shù)實力。而為了進一步提升服務(wù)質(zhì)量,“融云北極星”應(yīng)運而生,這一監(jiān)控平臺不僅提供了完善的實時數(shù)據(jù)監(jiān)控,還具備了異常指標(biāo)告警服務(wù),助力業(yè)務(wù)實現(xiàn)全局監(jiān)控與問題的高效排查。
“北極星”的實時監(jiān)控能力涵蓋了業(yè)務(wù)數(shù)據(jù)的多個維度,包括總消息量、消息峰值及其變化趨勢,用戶同時在線數(shù)據(jù),以及接口調(diào)用的每秒查詢率(QPS)和報錯情況等,為開發(fā)者提供了全面的運營數(shù)據(jù)視圖。
更為“融云北極星”在實時監(jiān)控的基礎(chǔ)上,推出了豐富的告警功能。一旦業(yè)務(wù)調(diào)用融云的IM、RTC接口相關(guān)指標(biāo)發(fā)生異常波動,系統(tǒng)將通過短信、郵件等多種方式及時通知相關(guān)人員,確保問題能夠得到迅速排查與處理。
具體而言,該告警服務(wù)包括API告警和消息量告警兩大類。API告警允許用戶設(shè)置全局或特定API的QPS閾值,并在QPS超過設(shè)定值時觸發(fā)告警。同時,用戶還可以指定HTTP錯誤碼或業(yè)務(wù)返回錯誤碼進行監(jiān)控,并根據(jù)錯誤碼出現(xiàn)的頻次靈活設(shè)定告警條件。
消息量告警則提供了更為細(xì)致的監(jiān)控選項,用戶可以選擇全部會話類型或指定某個會話類型進行告警設(shè)置,并針對上行、分發(fā)、下行消息進行精準(zhǔn)監(jiān)控。該功能還支持與歷史數(shù)據(jù)時段進行對比,幫助用戶及時發(fā)現(xiàn)消息量的異常增長或下降。
通過這些高效的告警機制,“融云北極星”不僅實現(xiàn)了對IM和RTC服務(wù)的全局追蹤,更為開發(fā)者提供了有力的工具來掌握業(yè)務(wù)波動情況,從而做出針對性的優(yōu)化和管理決策。