午夜精品人妻久久久-成年美女很黄的网站-在线看片免费人成视久网app-国产精品美女无遮挡一区二区-91精品国产综合久久久久-国产的免费视频又猛又爽又刺激-在线看片免费人成视久网app-久久香蕉国产精品视频-av一区二区三区高清

統(tǒng)一觀測 使用Prometheus監(jiān)控E-MapReduce

開源大數(shù)據(jù)平臺E-(簡稱“EMR”)是云原生開源大數(shù)據(jù)平臺,向客戶提供簡單易集成的、Hive、Spark、Flink、、、、Delta、Hudi等開源大數(shù)據(jù)計(jì)算和存儲引擎 。本文旨在分享阿里云對EMR平臺大數(shù)據(jù)服務(wù)的監(jiān)控實(shí)踐 。
EMR 簡介
開源大數(shù)據(jù)開發(fā)平臺E-(簡稱“EMR”)作為大數(shù)據(jù)處理的系統(tǒng)解決方案被越來越多的企業(yè)所接受 。而阿里云EMR構(gòu)建于云服務(wù)器ECS上,基于開源的 和 Spark可以方便地使用和Spark生態(tài)系統(tǒng)中的其他周邊系統(tǒng)分析和處理數(shù)據(jù),還可以與阿里云OSS和RDS等云數(shù)據(jù)存儲系統(tǒng)和數(shù)據(jù)庫系統(tǒng)進(jìn)行數(shù)據(jù)傳輸,讓企業(yè)可以快速搭建、Spark、Flink、Kafka和HBase等開源大數(shù)據(jù)服務(wù) 。
我們可以看到,E-的核心是集群 。E-集群是由一個(gè)或多個(gè)ECS實(shí)例組成的、Flink、Druid、集群 。以為例,每個(gè)ECS 實(shí)例上通常都運(yùn)行了一些進(jìn)程(例如,、、和),這些進(jìn)程共同組成了集群 。在眾多大數(shù)據(jù)組件背后,是海量需要被觀測的指標(biāo),這就給運(yùn)維工程師、SRE工程師帶來了巨大的挑戰(zhàn) 。那么,構(gòu)建E-之后,我們針對不同組件,應(yīng)該哪些指標(biāo)呢?
E- 觀測指標(biāo)解讀
指標(biāo)采集
E-指標(biāo)觀測主要包括HOST監(jiān)控、HDFS 、YARN、Hive、Kafka、、和Flink等,那么接下來我們將進(jìn)行逐一解讀 。
HOST指標(biāo)[1]
提供ECS節(jié)點(diǎn)CPU、內(nèi)存、磁盤、load、網(wǎng)絡(luò)、等監(jiān)控指標(biāo) 。
HDFS指標(biāo)[2]
HDFS(File )是一種分布式文件系統(tǒng)sql server數(shù)據(jù)庫操作工具 , 適用于大規(guī)模數(shù)據(jù)的分布式讀寫 , 特別是讀多寫少的場景 。HDFS指標(biāo)包括HOME、、和指標(biāo) 。
YARN指標(biāo)[3]
YARN是系統(tǒng)的核心組件,主要功能包括負(fù)責(zé)集群的資源管理,對作業(yè)進(jìn)行調(diào)度運(yùn)行以及監(jiān)控 。YARN指標(biāo)包括HOME、Queue、、、和 。
Hive指標(biāo)[4]
Hive是一個(gè)基于的數(shù)據(jù)倉庫框架,在大數(shù)據(jù)業(yè)務(wù)場景中,主要用來進(jìn)行數(shù)據(jù)提取、轉(zhuǎn)化和加載(ETL)以及元數(shù)據(jù)管理 。Hive由(查詢服務(wù)器)、Hive (元數(shù)據(jù)管理模塊)和Hive 構(gòu)成,其指標(biāo)包括和 。
指標(biāo)
描述
JVM最大可用堆內(nèi)存,單位:Byte 。
d
JVM已使用堆內(nèi)存,單位:Byte 。
_used
JVM已使用堆外內(nèi)存量,單位:Byte 。
當(dāng)前活躍的alter table請求數(shù) 。
當(dāng)前活躍的 table請求數(shù) 。
當(dāng)前活躍的drop table請求數(shù) 。
alter table請求平均時(shí)間,單位:ms 。
ntext
alter table with env 請求平均時(shí)間,單位:ms 。
e
table請求平均時(shí)間,單位:ms 。
table with env 請求平均時(shí)間 , 單位:ms 。
drop table請求平均時(shí)間,單位:ms 。
text
drop table with env 請求平均時(shí)間,單位:ms 。
get all 請求平均時(shí)間,單位:ms 。
get all 請求平均時(shí)間 , 單位:ms 。
e
get 請求平均時(shí)間,單位:ms 。
es
get 請求平均時(shí)間 , 單位:ms 。
able
get multi table請求平均時(shí)間,單位:ms 。
get table請求平均時(shí)間,單位:ms 。
get tableby name請求平均時(shí)間,單位:ms 。
eq
get table req請求平均時(shí)間,單位:ms 。
get table 請求平均時(shí)間 , 單位:ms 。
get 請求平均時(shí)間,單位:ms 。
getby type請求平均時(shí)間,單位:ms 。
指標(biāo)
描述
當(dāng)前活躍的個(gè)數(shù) 。
JVM初始化總內(nèi)存,單位:Byte 。
JVM已預(yù)留總內(nèi)存,單位:Byte 。
JVM最大可用總內(nèi)存 , 單位:Byte 。
JVM已預(yù)留堆內(nèi)存,單位:Byte 。
ted
JVM初始化堆內(nèi)存,單位:Byte 。
JVM已預(yù)留堆外內(nèi)存,單位:Byte 。
JVM初始化堆外內(nèi)存,單位:Byte 。
JVM最大可用堆外內(nèi)存,單位:Byte 。
JVM PSGC次數(shù) 。
JVM PSGC時(shí)間,單位:ms 。
JVM PSGC時(shí)間,單位:ms 。
JVM 線程數(shù) 。
JVM線程數(shù) 。
JVM 線程數(shù) 。
JVM 線程數(shù) 。
JVM new狀態(tài)線程數(shù) 。
JVM 線程數(shù) 。
JVM 線程數(shù) 。
JVM 線程數(shù) 。
JVM 線程數(shù) 。
JVM最大可用堆內(nèi)存,單位:Byte 。
JVM已使用堆內(nèi)存sql server數(shù)據(jù)庫操作工具,單位:Byte 。
JVM已使用堆外內(nèi)存量 , 單位:Byte 。
當(dāng)前打開的數(shù) 。
提交的Hive on MR作業(yè)總數(shù) 。
提交的Hive on Tez作業(yè)總數(shù) 。
累計(jì)連接數(shù) 。
當(dāng)前請求數(shù) 。
已結(jié)束的SQL總數(shù) 。
er
當(dāng)前活躍用戶數(shù) 。
當(dāng)前打開的連接數(shù) 。
執(zhí)行的平均時(shí)間,單位:ms 。
NG
SQL任務(wù)處于狀態(tài)的平均時(shí)間 , 單位:ms 。
NG
運(yùn)SQL任務(wù)處于狀態(tài)的平均時(shí)間,單位:ms 。
提交查詢的平均時(shí)間 , 單位:ms 。
執(zhí)行查詢的平均時(shí)間 , 單位:ms 。
服務(wù)啟動后成功的查詢數(shù) 。
服務(wù)啟動后失敗的查詢數(shù) 。
指標(biāo)[5]
是一個(gè)分布式、高可用性的協(xié)調(diào)服務(wù) 。提供分布式配置服務(wù)、同步服務(wù)和命名注冊等功能 。
指標(biāo)
描述
接收的包的數(shù)量 。
發(fā)送的包的數(shù)量 。
平均請求延遲 , 單位:ms 。
最小請求延遲,單位:ms 。
最大請求延遲,單位:ms 。
watch的數(shù)量 。
znode的數(shù)量 。
ions
存活的連接數(shù) 。
sts
排隊(duì)請求的數(shù)量 。當(dāng)超過了它的處理能力時(shí),該值會增大 。
size
的數(shù)據(jù)大?。ń?浦擔(dān)?nbsp;, 單位:Byte 。
打開文件的數(shù)量 。
最大允許打開的文件數(shù)量 。
節(jié)點(diǎn)狀態(tài):
同步的服務(wù)數(shù)量 。
Kafka指標(biāo)[6]
消息隊(duì)列Kafka版是阿里云提供的分布式、高吞吐、可擴(kuò)展的消息隊(duì)列服務(wù) 。消息隊(duì)列Kafka版廣泛用于日志收集、監(jiān)控?cái)?shù)據(jù)聚合、流式數(shù)據(jù)處理、在線和離線分析等大數(shù)據(jù)領(lǐng)域,已成為大數(shù)據(jù)生態(tài)中不可或缺的部分 。
指標(biāo)[7]
為存儲在 中的數(shù)據(jù)提供了高性能和低延遲的SQL查詢 。
指標(biāo)
描述
結(jié)果集緩存大?。?ノ唬築yte 。
當(dāng)前正在執(zhí)行的查詢數(shù)量 。
當(dāng)前正在等待的查詢數(shù)量 。
95th
95%的查詢耗時(shí)時(shí)間,單位:ms 。
集群正在in fight狀態(tài)的查詢數(shù)量 。
75th
75%的查詢耗時(shí)時(shí)間,單位:ms 。
的客戶端對服務(wù)線程的等待時(shí)間,單位:ms 。
99%的 客戶端等待建立連接所花費(fèi)的時(shí)間,單位:ms 。
99%的查詢耗時(shí)時(shí)間,單位:ms 。
_9th
99%的DDL操作耗時(shí)時(shí)間,單位:ms 。
90th
90%的查詢耗時(shí)時(shí)間,單位:ms 。
th
90%的DDL操作耗時(shí)時(shí)間,單位:ms 。
50th
50%的查詢耗時(shí)時(shí)間,單位:ms 。
th
50%的DDL操作耗時(shí)時(shí)間,單位:ms 。
th
95%的DDL操作耗時(shí)時(shí)間,單位:ms 。
在進(jìn)程生命周期內(nèi)缺失 id的scan range總數(shù) 。
th
75%的DDL操作耗時(shí)時(shí)間 , 單位:ms 。
任何運(yùn)算符溢出的查詢數(shù) 。
在進(jìn)程生命周期內(nèi)讀取的掃描范圍總數(shù) 。
由于不活動而過期的查詢數(shù) 。
結(jié)果集緩存記錄數(shù) 。
打開的會話數(shù) 。
d
由于不活動而過期的會話數(shù) 。
ight
當(dāng)前正在執(zhí)行的查詢片段實(shí)例的數(shù)量 。
red
在此服務(wù)器實(shí)例上注冊的查詢總數(shù) 。包括正在進(jìn)行中并等待關(guān)閉的查詢 。
當(dāng)前為寫入而打開的HDFS文件數(shù) 。
在進(jìn)程生命周期內(nèi)處理的查詢總數(shù) 。
在進(jìn)程生命周期內(nèi)嘗試的 reads總數(shù) 。
打開會話的數(shù)量 。
在進(jìn)程的生命周期內(nèi)在此后端執(zhí)行的查詢總數(shù) 。
在進(jìn)程生命周期內(nèi)處理的查詢片段總數(shù) 。
由于服務(wù)隊(duì)列溢出而被拒絕的傳入RPC總數(shù) 。
read比常規(guī)讀取操作快的總次數(shù) 。
當(dāng)前使用的字節(jié)數(shù) 。
當(dāng)前在此后端上執(zhí)行的查詢數(shù) 。
處于健康狀態(tài)的執(zhí)行器組總數(shù) 。
由于服務(wù)隊(duì)列溢出而被拒絕的傳入RPC總數(shù) 。
向注冊的后端總數(shù) 。
峰值使用的字節(jié)數(shù) 。

統(tǒng)一觀測 使用Prometheus監(jiān)控E-MapReduce

文章插圖
統(tǒng)一觀測 使用Prometheus監(jiān)控E-MapReduce

文章插圖
已被阻止等待接收片段初始化的發(fā)件人總數(shù) 。
峰值使用字節(jié)數(shù) 。
本地作業(yè)數(shù) 。
當(dāng)前使用字節(jié)數(shù) 。
used
已使用內(nèi)存 , 單位:Byte 。
至少有一個(gè)執(zhí)行程序的執(zhí)行程序組總數(shù) 。
RSS的內(nèi)存大?。?包括、緩沖池和JVM,單位:Byte 。
超時(shí)等待接收片段初始化的發(fā)送者總數(shù) 。
等待接收片段初始化的發(fā)送者數(shù)量 。
l
作業(yè)數(shù) 。
進(jìn)程中內(nèi)存映射的總字節(jié)數(shù)(虛擬內(nèi)存大?。?,單位:Byte 。
【統(tǒng)一觀測 使用Prometheus監(jiān)控E-MapReduce】HUE指標(biāo)[8]
指標(biāo)
描述
請求響應(yīng)時(shí)間平均值 。
95%的請求響應(yīng)時(shí)間 。
請求響應(yīng)時(shí)間標(biāo)準(zhǔn)差 。
50%的請求響應(yīng)時(shí)間 。
75%的請求響應(yīng)時(shí)間 。
請求響應(yīng)時(shí)間計(jì)數(shù) 。
最近5分鐘的請求響應(yīng)速率 。
請求響應(yīng)時(shí)間最小值 。
請求響應(yīng)時(shí)間總和 。
請求響應(yīng)時(shí)間的最大值 。
請求響應(yīng)速率平均值 。
99%的最近一小時(shí)請求響應(yīng)時(shí)間 。
最近15分鐘請求響應(yīng)速率 。
e
99.9%的請求響應(yīng)時(shí)間 。
最近1分鐘的請求響應(yīng)速率 。
al
活躍用戶總數(shù) 。
最近1小時(shí)的活躍用戶數(shù) 。
用戶總數(shù) 。
當(dāng)前線程總數(shù) 。
常駐線程數(shù)量 。
查詢數(shù)量總和 。
ons
當(dāng)前異常請求數(shù) 。
當(dāng)前活躍請求數(shù) 。
Kudu指標(biāo)[9]
參數(shù)
指標(biāo)
描述
h(99)
99%的操作隊(duì)列的長度 。
h(75)
75%的操作隊(duì)列的長度 。
h(mean)
操作隊(duì)列的長度的平均值 。
ime(99)
99
99%的RPC隊(duì)列的等待時(shí)間,單位:μs 。
ime(75)
75
75%的RPC隊(duì)列的等待時(shí)間 , 單位:μs 。
ime(mean)
RPC隊(duì)列的等待時(shí)間的平均值,單位:μs 。
(99)
99%的線程的負(fù)載 。
(75)
75%的線程的負(fù)載 。
(mean)
線程的負(fù)載的平均值 。
(99)
99%的操作執(zhí)行時(shí)間 , 單位:μs 。
(75)
75%的操作執(zhí)行時(shí)間 , 單位:μs 。
(mean)
操作執(zhí)行時(shí)間的平均值,單位:μs 。
(99)
99%的操作準(zhǔn)備時(shí)間,單位:μs 。
(75)
75%的操作準(zhǔn)備時(shí)間,單位:μs 。
(mean)
操作準(zhǔn)備時(shí)間的平均值,單位:μs 。
(99)
99%的 flush時(shí)間,單位:ms 。
(75)
75%的 flush時(shí)間,單位:ms 。
(mean)
flush時(shí)間的平均值 , 單位:ms 。
(99)
99%的日志的時(shí)間,單位:μs 。
(75)
75%的日志的時(shí)間,單位:μs 。
(mean)
日志的時(shí)間的平均值,單位:μs 。
(99)
99%的 flush時(shí)間,單位:ms 。
(75)
75%的 flush時(shí)間,單位:ms 。
(mean)
flush時(shí)間的平均值,單位:ms 。
gth(99)
99
99%的準(zhǔn)備隊(duì)列的長度 。
gth(75)
75
75%的準(zhǔn)備隊(duì)列的長度 。
gth(mean)
準(zhǔn)備隊(duì)列的長度的平均值 。
(99)
99%的日志GC的時(shí)間,單位:ms 。
(75)
75%的日志GC的時(shí)間,單位:ms 。
(mean)
_mean
日志GC的時(shí)間的平均值,單位:ms 。
(99)
99%的日志Sync的時(shí)間,單位:μs 。
(75)
75%的日志Sync的時(shí)間,單位:μs 。
(mean)
日志Sync的時(shí)間的平均值,單位:μs 。
(99)
99%的操作在準(zhǔn)備隊(duì)列的等待時(shí)間 , 單位:μs 。
(75)
75%的操作在準(zhǔn)備隊(duì)列的等待時(shí)間,單位:μs 。
(mean)
操作在準(zhǔn)備隊(duì)列的等待時(shí)間的平均值,單位:μs 。
pted
RPC請求接收的數(shù)量 。
ge
Block緩存的使用量,單位:Byte 。
處于狀態(tài)的數(shù)量 。
Full狀態(tài)的數(shù)據(jù)目錄個(gè)數(shù) 。
flow
RPC隊(duì)列溢出次數(shù) 。
_skew
服務(wù)器上承載的最多的數(shù)量與最少的數(shù)量的差值 。
正在GC的日志數(shù)量 。
d
失效的數(shù)據(jù)目錄個(gè)數(shù) 。
內(nèi)存壓力拒絕的請求個(gè)數(shù) 。
ons
內(nèi)存壓力拒絕的事務(wù)個(gè)數(shù) 。
指標(biāo)[10]
EMR 完全兼容開源版本的產(chǎn)品特性,并且在開源的基礎(chǔ)上優(yōu)化了讀寫性能,提升了與EMR其他組件快速集成的能力 。
指標(biāo)
描述
數(shù)據(jù)無法從*表中任一副本獲取的次數(shù) 。
*表中數(shù)據(jù)檢查失敗的次數(shù) 。
oss
*表中數(shù)據(jù)不在任何一個(gè)副本中的次數(shù) 。
*表檢查元數(shù)據(jù)失敗的次數(shù) 。
*表中元數(shù)據(jù)丟失的次數(shù) 。
寫入*表中的Block重復(fù)的次數(shù) 。
中與狀態(tài)相關(guān)錯(cuò)誤出現(xiàn)的次數(shù) 。
網(wǎng)絡(luò)或類似的錯(cuò)誤出現(xiàn)的次數(shù) 。
中非硬件或狀態(tài)錯(cuò)誤出現(xiàn)的次數(shù) 。
分布式連接重試出錯(cuò)的次數(shù) 。
分布式連接無法找到表的次數(shù) 。
分布式連接得到的副本不新鮮的次數(shù) 。
在所有次重試結(jié)束后分布式連接失敗的次數(shù) 。
Slow Read的次數(shù) 。
由于Slow Read導(dǎo)致的線程減少的次數(shù) 。
Task
中的任務(wù)個(gè)數(shù) 。
中的任務(wù)個(gè)數(shù) 。
中的任務(wù)個(gè)數(shù) 。
ask
中的任務(wù)個(gè)數(shù) 。
ask
_pool中的任務(wù)個(gè)數(shù) 。
l中的任務(wù)個(gè)數(shù) 。
TCP連接個(gè)數(shù) 。
本文到此結(jié)束,希望對大家有所幫助 。