矛盾是事物發(fā)展的源泉和動力 。運維中的矛盾無處不在 , 既有來自業(yè)務(wù)與技術(shù)的矛盾,也有來自開發(fā)和運維的矛盾,還有來自數(shù)據(jù)中心內(nèi)部的矛盾,解決這些矛盾只能靠發(fā)展 。
一、安全生產(chǎn)
數(shù)據(jù)中心的主要職責是安全生產(chǎn),圍繞著安全生產(chǎn)有三個目標:
2.1高可用架構(gòu):高可用的IT基礎(chǔ)設(shè)施可以確保應(yīng)用系統(tǒng)的可用性與連續(xù)性,包括:應(yīng)用集群、系統(tǒng)熱遷、數(shù)據(jù)庫集群、存儲復制、物理備份等 。
2.2高效運維:圍繞著高可用架構(gòu),進行一些列高效運維工作,包括:資源供給、應(yīng)用部署、日常變更、故障處理、數(shù)據(jù)治理等 。
【關(guān)于智能運維AIOps的一點思考】2.3 節(jié)約成本:在滿足高可用和高效的前提下,盡量節(jié)約成本 , 包括資源優(yōu)化、性能優(yōu)化、以及減少成本不敏感的資源浪費 。
二、高效運維
主要涉及如下四個方面工作:
2.1資源供給:之前是針對每次資源申請 , 運維人員都得把機器上架、系統(tǒng)安裝、存儲配置、網(wǎng)絡(luò)配置等一系列流程跑一遍,涉及各個專業(yè)的人工協(xié)同,小企業(yè)人少,一個兩個人搞定一切,大企業(yè)專業(yè)分工明確,這些工作需要多人協(xié)同,效率無法保證 ?,F(xiàn)在是通過云計算來提升效率,主要是池化和自動化,池化是指提前準備一批資源,避免每申請一次就得準備一次,自動化是指通過自動化的流程去串接各個專業(yè)條線,避免溝通成本和低效的手工操作,提高了效率和人員安全 。
2.2應(yīng)用部署:之前是開發(fā)完交付給測試、測試完組織投產(chǎn)、投產(chǎn)完開展運維,不同階段的人員相互割裂,應(yīng)用發(fā)布部署效率低 ?,F(xiàn)在通過提高效率 , 強調(diào)持續(xù)CI/CD,通過CI實現(xiàn)開發(fā)到測試的持續(xù)集成測試人工智能開發(fā)者社區(qū),通過CD實現(xiàn)開發(fā)到運維的持續(xù)系統(tǒng)部署,通過CD實現(xiàn)技術(shù)到業(yè)務(wù)的持續(xù)價值交付 。
2.3變更管理:之前是人工配合一些工具腳本,無系統(tǒng)化思維能力,往往只見樹木不見森林 ?,F(xiàn)在是通過云提升系統(tǒng)外變更效率,通過自動化工具(例如和)提高系統(tǒng)內(nèi)變更效率 。
2.4故障處理:之前是接到監(jiān)控告警 , 各專業(yè)分析根源,執(zhí)行應(yīng)急預案,但是存在很多問題,例如:缺乏故障預測、誤報漏報、分析慢、無法自愈 ?,F(xiàn)在是通過AIOps解決,實現(xiàn)故障預測、故障檢測、根因分析、故障自愈,盡量減少人工參與 。
三、智能運維(AIOps)
IT運維經(jīng)歷了三個階段,即人工運維、自動化運維、智能運維(AIOps) 。人工運維是指人工配合腳本 。自動化運維是指系統(tǒng)工具的自動化,決策在人,執(zhí)行在機器 。智能化運維是指決策的自動化,決策在機器,執(zhí)行也在機器 。決策在于推理,推理依賴于規(guī)則 , 現(xiàn)階段,規(guī)則是可編程的稱為自動化 , 規(guī)則是可學習的稱為智能化 。
3.1 AIOps定義:AIOps是指基于已有的運維數(shù)據(jù)(訪問關(guān)系、監(jiān)控告警、日志),采用數(shù)據(jù)分析和機器學習方法,提高運維決策能力 , 解決自動化運維無法解決的問題,進一步提高運維效率 。AIOps的價值不僅在于提供智能運維決策,也在于實施過程中,對已有的基礎(chǔ)架構(gòu)、應(yīng)用關(guān)系、監(jiān)控告警、日志數(shù)據(jù)等進行梳理,實現(xiàn)真正的精細化運維 。當然,AI算法的局限性、場景的多樣性、數(shù)據(jù)的復雜性,決定了AIOps是人力密集性、過程的曲折性 , 也決定了AIOps不能解決全部問題,需要人機協(xié)同和知識圖譜 , 才能發(fā)揮AIOps最大價值 。
3.2 數(shù)字化運維:信息化是把手工流程變成線上流程,數(shù)字化是把物理對象抽象為數(shù)字對象 , 通過大數(shù)據(jù)分析和機器學習算法挖掘數(shù)據(jù)的價值 。大數(shù)據(jù)主要通過大量多樣數(shù)據(jù)的分析,挖掘數(shù)據(jù)的價值,會使用到一些機器學習算法,機器學習主要強調(diào)決策的自動化 , 依賴的基礎(chǔ)也是數(shù)據(jù),可以說 , 大數(shù)據(jù)分析基礎(chǔ),AI是目標態(tài) 。AIOps是運維數(shù)字化的直接體現(xiàn) 。
3.3 AIOps場景:一是質(zhì)量方向 , 主要是異常處理,包括異常預測、異常檢測、根因分析、故障自愈等 。二是效率方向:主要是預測 , 包括批量預測、容量預測、交易量預測等 。三是成本方向,包括資源優(yōu)化、性能優(yōu)化等 。
3.4算法為尊:
現(xiàn)階段的AI得以發(fā)展人工智能開發(fā)者社區(qū) , 得益于算力、算法、數(shù)據(jù)的共同改良,算力是通用的,場景決定數(shù)據(jù) , 數(shù)據(jù)決定算法 。往往不同的場景有不同的數(shù)據(jù),即使同一個場景的不同環(huán)境也有不同數(shù)據(jù),這就決定了數(shù)據(jù)的適配性、算法的多樣性 。
AI算法:機器學習算法 , 按標注可以分為監(jiān)督、非監(jiān)督、半監(jiān)督、強化;按用途可分為分類、聚類、回歸、降維;按照方法可分為統(tǒng)計學、傳統(tǒng)機器學習、深度學習等 。其中,統(tǒng)計學(例如:正太分布、均衡分布)要求數(shù)據(jù)必須滿足某種分布,在異常檢測領(lǐng)域用的多,包括運維領(lǐng)域的故障處理、金融領(lǐng)域的反欺詐、工業(yè)領(lǐng)域的殘次品檢測 。傳統(tǒng)機器學習(例如:、隨機森林、支持向向量機、貝葉斯、決策樹、馬爾可夫等),雖然對數(shù)據(jù)要求弱一些,但對場景依賴強 , 即使是同一個場景的不同環(huán)境,也需要不同模型,在數(shù)據(jù)分析領(lǐng)域用的比較多 。深度學習(深層神經(jīng)網(wǎng)絡(luò),例如:CNN、RNN)對數(shù)據(jù)要求高,因為更多的數(shù)據(jù)才能訓練出更深的神經(jīng)網(wǎng)絡(luò),更深的神經(jīng)網(wǎng)絡(luò)抽象表達能力更好,也就決定了場景適應(yīng)能力越強,主要是用在圖像技術(shù)、語音技術(shù)、自然語言處理三個通用技術(shù)領(lǐng)域 。
AIOps算法:做異常處理時,主要是概率分布和聚類,分類比較少,因為GT少 。做預測時,可以是多維的線性回歸模型,線性回歸簡單,但魯棒性差;也可以是基于深度學習的非線性模型,一則對數(shù)據(jù)要求高,二則需要監(jiān)督學習;還可以是傳統(tǒng)的貝葉斯模型,但預測效果一般 。
3.5方案為王:學術(shù)界研究通用問題,尋找更優(yōu)的算法,工業(yè)界除了需要解決通用問題 , 還需要解決更多的個性化問題 。甲方和乙方經(jīng)常不在一個頻道上,乙方主打算法和產(chǎn)品,甲方確需要解決方案 , 解決應(yīng)用場景中的痛點,這中間需要乙方設(shè)立解決方案部門 , 熟悉甲方各種套路 。算法的價值在于解決問題,在算法、產(chǎn)品、解決方案、應(yīng)用場景、產(chǎn)生價值整個周期中,算法僅僅是個開始 , 研究新算法 , 解決通用問題 , 固然很重要,利用已有算法 , 解決個性化問題,給出完整解決方案,才是關(guān)鍵 。
3.6非零基構(gòu)建:AIOps是在現(xiàn)有基礎(chǔ)架構(gòu)之上構(gòu)建的智慧大腦 , 依賴于現(xiàn)有的眼(應(yīng)用訪問關(guān)系、監(jiān)控告警、日志)和手(云和自動化工具) 。眼數(shù)據(jù)主要有:應(yīng)用訪問關(guān)系,基礎(chǔ)架構(gòu)成熟的企業(yè),積累了應(yīng)用訪問關(guān)系,不成熟的企業(yè),需要借助AIOps進行梳理;監(jiān)控數(shù)據(jù),包括設(shè)備監(jiān)控數(shù)據(jù)、網(wǎng)絡(luò)監(jiān)控數(shù)據(jù)、系統(tǒng)監(jiān)控數(shù)據(jù)、平臺監(jiān)控數(shù)據(jù)、應(yīng)用監(jiān)控數(shù)據(jù)、業(yè)務(wù)指標監(jiān)控數(shù)據(jù) , 這些都是結(jié)構(gòu)化的時序數(shù)據(jù);日志數(shù)據(jù),非結(jié)構(gòu)化的數(shù)據(jù),每個系統(tǒng)都有自己的日志數(shù)據(jù),不便于統(tǒng)一分析 。手主要分為外手和內(nèi)手,外手主要是在系統(tǒng)在外側(cè)操作 , 可以通過云平臺(IAAS和PAAS)實現(xiàn),內(nèi)手主要通過自動化工具實現(xiàn) , 例如無代理的和有代理的 。AIOps就是基于現(xiàn)有的眼數(shù)據(jù),進行分析、推理、決策 , 然后使用現(xiàn)有的手進行運維 。
四、監(jiān)管之劍
監(jiān)管要求的安穩(wěn)態(tài)是把雙刃劍,一方面確保了業(yè)務(wù)的安全穩(wěn)定運行,另一方面卻阻礙了技術(shù)創(chuàng)新 。以金融行業(yè)為例,強調(diào)嚴管控,嚴格遵守ITIL標準流程(發(fā)布管理、配置管理、變更管理、問題管理、事件管理) , 追求安穩(wěn)態(tài) 。然而,技術(shù)創(chuàng)新,無論是云計算、還是、還是AIOps , 都在追求敏捷態(tài),這往往挑戰(zhàn)了監(jiān)管要求 。在監(jiān)管面前,一切違反監(jiān)管要求的做法都是一票否決 。我們可以在現(xiàn)有的監(jiān)管框架內(nèi)尋求折中,例如,在嚴格遵守ITIL的嚴管控流程的同時,把人工流程全部優(yōu)化為自動化流程,但這會偏離技術(shù)創(chuàng)新的原有初衷 。解鈴還須系鈴人 , 監(jiān)管需要為技術(shù)創(chuàng)新改變 。
五、結(jié)束語
真理都是簡潔的,但發(fā)現(xiàn)真理的過程往往是且復雜且曲折,這也是AI的魅力所在,我們相信,在學術(shù)界和工業(yè)界的共同努力下,AIOps終將展現(xiàn)出真理的一面 。
本文到此結(jié)束,希望對大家有所幫助 。
- 測評:超短焦+徠卡的堅果智慧墻O1 Pro怎么樣?家庭智能影院最優(yōu)選
- 關(guān)于游子吟的譯文 ?古詩游子吟全詩的意思
- 關(guān)于用一邊一邊造句的例句 ?一邊一邊造句二年級
- 關(guān)于實驗安全,煙大師生提供的這100條經(jīng)驗關(guān)鍵時也許可以救命
- 一個關(guān)于時間概念的問題?
- 紐約之行交通和美食指南
- 三年級語文功課:理解背誦古人關(guān)于錯誤的認知,我也學習一下
- 浙江小眾景點推薦
- 愛上人工智能到底算不算愛情,不如我們跟著電影去愛一個試試吧
- 美國電影人工智能最后結(jié)局是啥子,大衛(wèi)變成人了嗎?
