白丝国产一区二区三区,精品国产亚洲第一区二区三区

開源大數(shù)據(jù)平臺E-（簡稱“EMR”）是云原生開源大數(shù)據(jù)平臺，向客戶提供簡單易集成的、Hive、Spark、Flink、、、、Delta、Hudi等開源大數(shù)據(jù)計(jì)算和存儲引擎。本文旨在分享阿里云對EMR平臺大數(shù)據(jù)服務(wù)的監(jiān)控實(shí)踐。
EMR 簡介
開源大數(shù)據(jù)開發(fā)平臺E-（簡稱“EMR”）作為大數(shù)據(jù)處理的系統(tǒng)解決方案被越來越多的企業(yè)所接受。而阿里云EMR構(gòu)建于云服務(wù)器ECS上，基于開源的和 Spark可以方便地使用和Spark生態(tài)系統(tǒng)中的其他周邊系統(tǒng)分析和處理數(shù)據(jù)，還可以與阿里云OSS和RDS等云數(shù)據(jù)存儲系統(tǒng)和數(shù)據(jù)庫系統(tǒng)進(jìn)行數(shù)據(jù)傳輸，讓企業(yè)可以快速搭建、Spark、Flink、Kafka和HBase等開源大數(shù)據(jù)服務(wù) 。
我們可以看到，E-的核心是集群。E-集群是由一個(gè)或多個(gè)ECS實(shí)例組成的、Flink、Druid、集群。以為例，每個(gè)ECS 實(shí)例上通常都運(yùn)行了一些進(jìn)程（例如，、、和），這些進(jìn)程共同組成了集群。在眾多大數(shù)據(jù)組件背后，是海量需要被觀測的指標(biāo)，這就給運(yùn)維工程師、SRE工程師帶來了巨大的挑戰(zhàn) 。那么，構(gòu)建E-之后，我們針對不同組件，應(yīng)該哪些指標(biāo)呢？
E- 觀測指標(biāo)解讀
指標(biāo)采集
E-指標(biāo)觀測主要包括HOST監(jiān)控、HDFS 、YARN、Hive、Kafka、、和Flink等，那么接下來我們將進(jìn)行逐一解讀。
HOST指標(biāo)[1]
提供ECS節(jié)點(diǎn)CPU、內(nèi)存、磁盤、load、網(wǎng)絡(luò)、等監(jiān)控指標(biāo) 。
HDFS指標(biāo)[2]
HDFS（File ）是一種分布式文件系統(tǒng)sql server數(shù)據(jù)庫操作工具，適用于大規(guī)模數(shù)據(jù)的分布式讀寫，特別是讀多寫少的場景。HDFS指標(biāo)包括HOME、、和指標(biāo) 。
YARN指標(biāo)[3]
YARN是系統(tǒng)的核心組件，主要功能包括負(fù)責(zé)集群的資源管理，對作業(yè)進(jìn)行調(diào)度運(yùn)行以及監(jiān)控。YARN指標(biāo)包括HOME、Queue、、、和。
Hive指標(biāo)[4]
Hive是一個(gè)基于的數(shù)據(jù)倉庫框架，在大數(shù)據(jù)業(yè)務(wù)場景中，主要用來進(jìn)行數(shù)據(jù)提取、轉(zhuǎn)化和加載（ETL）以及元數(shù)據(jù)管理。Hive由(查詢服務(wù)器)、Hive (元數(shù)據(jù)管理模塊)和Hive 構(gòu)成，其指標(biāo)包括和。
指標(biāo)
描述
JVM最大可用堆內(nèi)存，單位：Byte 。
d
JVM已使用堆內(nèi)存，單位：Byte 。
_used
JVM已使用堆外內(nèi)存量，單位：Byte 。
當(dāng)前活躍的alter table請求數(shù) 。
當(dāng)前活躍的 table請求數(shù) 。
當(dāng)前活躍的drop table請求數(shù) 。
alter table請求平均時(shí)間，單位：ms 。
ntext
alter table with env 請求平均時(shí)間，單位：ms 。
e
table請求平均時(shí)間，單位：ms 。
table with env 請求平均時(shí)間，單位：ms 。
drop table請求平均時(shí)間，單位：ms 。
text
drop table with env 請求平均時(shí)間，單位：ms 。
get all 請求平均時(shí)間，單位：ms 。
get all 請求平均時(shí)間，單位：ms 。
e
get 請求平均時(shí)間，單位：ms 。
es
get 請求平均時(shí)間，單位：ms 。
able
get multi table請求平均時(shí)間，單位：ms 。
get table請求平均時(shí)間，單位：ms 。
get tableby name請求平均時(shí)間，單位：ms 。
eq
get table req請求平均時(shí)間，單位：ms 。
get table 請求平均時(shí)間，單位：ms 。
get 請求平均時(shí)間，單位：ms 。
getby type請求平均時(shí)間，單位：ms 。
指標(biāo)
描述
當(dāng)前活躍的個(gè)數(shù) 。
JVM初始化總內(nèi)存，單位：Byte 。
JVM已預(yù)留總內(nèi)存，單位：Byte 。
JVM最大可用總內(nèi)存，單位：Byte 。
JVM已預(yù)留堆內(nèi)存，單位：Byte 。
ted
JVM初始化堆內(nèi)存，單位：Byte 。
JVM已預(yù)留堆外內(nèi)存，單位：Byte 。
JVM初始化堆外內(nèi)存，單位：Byte 。
JVM最大可用堆外內(nèi)存，單位：Byte 。
JVM PSGC次數(shù) 。
JVM PSGC時(shí)間，單位：ms 。
JVM PSGC時(shí)間，單位：ms 。
JVM 線程數(shù) 。
JVM線程數(shù) 。
JVM 線程數(shù) 。
JVM 線程數(shù) 。
JVM new狀態(tài)線程數(shù) 。
JVM 線程數(shù) 。
JVM 線程數(shù) 。
JVM 線程數(shù) 。
JVM 線程數(shù) 。
JVM最大可用堆內(nèi)存，單位：Byte 。
JVM已使用堆內(nèi)存sql server數(shù)據(jù)庫操作工具，單位：Byte 。
JVM已使用堆外內(nèi)存量，單位：Byte 。
當(dāng)前打開的數(shù) 。
提交的Hive on MR作業(yè)總數(shù) 。
提交的Hive on Tez作業(yè)總數(shù) 。
累計(jì)連接數(shù) 。
當(dāng)前請求數(shù) 。
已結(jié)束的SQL總數(shù) 。
er
當(dāng)前活躍用戶數(shù) 。
當(dāng)前打開的連接數(shù) 。
執(zhí)行的平均時(shí)間，單位：ms 。
NG
SQL任務(wù)處于狀態(tài)的平均時(shí)間，單位：ms 。
NG
運(yùn)SQL任務(wù)處于狀態(tài)的平均時(shí)間，單位：ms 。
提交查詢的平均時(shí)間，單位：ms 。
執(zhí)行查詢的平均時(shí)間，單位：ms 。
服務(wù)啟動后成功的查詢數(shù) 。
服務(wù)啟動后失敗的查詢數(shù) 。
指標(biāo)[5]
是一個(gè)分布式、高可用性的協(xié)調(diào)服務(wù) 。提供分布式配置服務(wù)、同步服務(wù)和命名注冊等功能。
指標(biāo)
描述
接收的包的數(shù)量。
發(fā)送的包的數(shù)量。
平均請求延遲，單位：ms 。
最小請求延遲，單位：ms 。
最大請求延遲，單位：ms 。
watch的數(shù)量。
znode的數(shù)量。
ions
存活的連接數(shù) 。
sts
排隊(duì)請求的數(shù)量。當(dāng)超過了它的處理能力時(shí)，該值會增大。
size
的數(shù)據(jù)大?。ń?浦擔(dān)?nbsp;，單位：Byte 。
打開文件的數(shù)量。
最大允許打開的文件數(shù)量。
節(jié)點(diǎn)狀態(tài)：
同步的服務(wù)數(shù)量。
Kafka指標(biāo)[6]
消息隊(duì)列Kafka版是阿里云提供的分布式、高吞吐、可擴(kuò)展的消息隊(duì)列服務(wù) 。消息隊(duì)列Kafka版廣泛用于日志收集、監(jiān)控?cái)?shù)據(jù)聚合、流式數(shù)據(jù)處理、在線和離線分析等大數(shù)據(jù)領(lǐng)域，已成為大數(shù)據(jù)生態(tài)中不可或缺的部分。
指標(biāo)[7]
為存儲在中的數(shù)據(jù)提供了高性能和低延遲的SQL查詢。
指標(biāo)
描述
結(jié)果集緩存大?。?ノ唬築yte 。
當(dāng)前正在執(zhí)行的查詢數(shù)量。
當(dāng)前正在等待的查詢數(shù)量。
95th
95%的查詢耗時(shí)時(shí)間，單位：ms 。
集群正在in fight狀態(tài)的查詢數(shù)量。
75th
75%的查詢耗時(shí)時(shí)間，單位：ms 。
的客戶端對服務(wù)線程的等待時(shí)間，單位：ms 。
99%的客戶端等待建立連接所花費(fèi)的時(shí)間，單位：ms 。
99%的查詢耗時(shí)時(shí)間，單位：ms 。
_9th
99%的DDL操作耗時(shí)時(shí)間，單位：ms 。
90th
90%的查詢耗時(shí)時(shí)間，單位：ms 。
th
90%的DDL操作耗時(shí)時(shí)間，單位：ms 。
50th
50%的查詢耗時(shí)時(shí)間，單位：ms 。
th
50%的DDL操作耗時(shí)時(shí)間，單位：ms 。
th
95%的DDL操作耗時(shí)時(shí)間，單位：ms 。
在進(jìn)程生命周期內(nèi)缺失 id的scan range總數(shù) 。
th
75%的DDL操作耗時(shí)時(shí)間，單位：ms 。
任何運(yùn)算符溢出的查詢數(shù) 。
在進(jìn)程生命周期內(nèi)讀取的掃描范圍總數(shù) 。
由于不活動而過期的查詢數(shù) 。
結(jié)果集緩存記錄數(shù) 。
打開的會話數(shù) 。
d
由于不活動而過期的會話數(shù) 。
ight
當(dāng)前正在執(zhí)行的查詢片段實(shí)例的數(shù)量。
red
在此服務(wù)器實(shí)例上注冊的查詢總數(shù) 。包括正在進(jìn)行中并等待關(guān)閉的查詢。
當(dāng)前為寫入而打開的HDFS文件數(shù) 。
在進(jìn)程生命周期內(nèi)處理的查詢總數(shù) 。
在進(jìn)程生命周期內(nèi)嘗試的 reads總數(shù) 。
打開會話的數(shù)量。
在進(jìn)程的生命周期內(nèi)在此后端執(zhí)行的查詢總數(shù) 。
在進(jìn)程生命周期內(nèi)處理的查詢片段總數(shù) 。
由于服務(wù)隊(duì)列溢出而被拒絕的傳入RPC總數(shù) 。
read比常規(guī)讀取操作快的總次數(shù) 。
當(dāng)前使用的字節(jié)數(shù) 。
當(dāng)前在此后端上執(zhí)行的查詢數(shù) 。
處于健康狀態(tài)的執(zhí)行器組總數(shù) 。
由于服務(wù)隊(duì)列溢出而被拒絕的傳入RPC總數(shù) 。
向注冊的后端總數(shù) 。
峰值使用的字節(jié)數(shù) 。

統(tǒng)一觀測使用Prometheus監(jiān)控E-MapReduce

文章插圖

文章插圖
已被阻止等待接收片段初始化的發(fā)件人總數(shù) 。
峰值使用字節(jié)數(shù) 。
本地作業(yè)數(shù) 。
當(dāng)前使用字節(jié)數(shù) 。
used
已使用內(nèi)存，單位：Byte 。
至少有一個(gè)執(zhí)行程序的執(zhí)行程序組總數(shù) 。
RSS的內(nèi)存大?。?包括、緩沖池和JVM，單位：Byte 。
超時(shí)等待接收片段初始化的發(fā)送者總數(shù) 。
等待接收片段初始化的發(fā)送者數(shù)量。
l
作業(yè)數(shù) 。
進(jìn)程中內(nèi)存映射的總字節(jié)數(shù)（虛擬內(nèi)存大?。?，單位：Byte 。
【統(tǒng)一觀測使用Prometheus監(jiān)控E-MapReduce】HUE指標(biāo)[8]
指標(biāo)
描述
請求響應(yīng)時(shí)間平均值。
95%的請求響應(yīng)時(shí)間。
請求響應(yīng)時(shí)間標(biāo)準(zhǔn)差。
50%的請求響應(yīng)時(shí)間。
75%的請求響應(yīng)時(shí)間。
請求響應(yīng)時(shí)間計(jì)數(shù) 。
最近5分鐘的請求響應(yīng)速率。
請求響應(yīng)時(shí)間最小值。
請求響應(yīng)時(shí)間總和。
請求響應(yīng)時(shí)間的最大值。
請求響應(yīng)速率平均值。
99%的最近一小時(shí)請求響應(yīng)時(shí)間。
最近15分鐘請求響應(yīng)速率。
e
99.9%的請求響應(yīng)時(shí)間。
最近1分鐘的請求響應(yīng)速率。
al
活躍用戶總數(shù) 。
最近1小時(shí)的活躍用戶數(shù) 。
用戶總數(shù) 。
當(dāng)前線程總數(shù) 。
常駐線程數(shù)量。
查詢數(shù)量總和。
ons
當(dāng)前異常請求數(shù) 。
當(dāng)前活躍請求數(shù) 。
Kudu指標(biāo)[9]
參數(shù)
指標(biāo)
描述
h（99）
99%的操作隊(duì)列的長度。
h（75）
75%的操作隊(duì)列的長度。
h（mean）
操作隊(duì)列的長度的平均值。
ime（99）
99
99%的RPC隊(duì)列的等待時(shí)間，單位：μs 。
ime（75）
75
75%的RPC隊(duì)列的等待時(shí)間，單位：μs 。
ime（mean）
RPC隊(duì)列的等待時(shí)間的平均值，單位：μs 。
（99）
99%的線程的負(fù)載。
（75）
75%的線程的負(fù)載。
（mean）
線程的負(fù)載的平均值。
（99）
99%的操作執(zhí)行時(shí)間，單位：μs 。
（75）
75%的操作執(zhí)行時(shí)間，單位：μs 。
（mean）
操作執(zhí)行時(shí)間的平均值，單位：μs 。
（99）
99%的操作準(zhǔn)備時(shí)間，單位：μs 。
（75)
75%的操作準(zhǔn)備時(shí)間，單位：μs 。
（mean）
操作準(zhǔn)備時(shí)間的平均值，單位：μs 。
（99）
99%的 flush時(shí)間，單位：ms 。
（75）
75%的 flush時(shí)間，單位：ms 。
（mean）
flush時(shí)間的平均值，單位：ms 。
（99）
99%的日志的時(shí)間，單位：μs 。
（75）
75%的日志的時(shí)間，單位：μs 。
（mean）
日志的時(shí)間的平均值，單位：μs 。
（99）
99%的 flush時(shí)間，單位：ms 。
（75）
75%的 flush時(shí)間，單位：ms 。
（mean）
flush時(shí)間的平均值，單位：ms 。
gth（99)
99
99%的準(zhǔn)備隊(duì)列的長度。
gth（75）
75
75%的準(zhǔn)備隊(duì)列的長度。
gth（mean）
準(zhǔn)備隊(duì)列的長度的平均值。
（99）
99%的日志GC的時(shí)間，單位：ms 。
（75）
75%的日志GC的時(shí)間，單位：ms 。
（mean）
_mean
日志GC的時(shí)間的平均值，單位：ms 。
（99）
99%的日志Sync的時(shí)間，單位：μs 。
(75)
75%的日志Sync的時(shí)間，單位：μs 。
（mean）
日志Sync的時(shí)間的平均值，單位：μs 。
（99）
99%的操作在準(zhǔn)備隊(duì)列的等待時(shí)間，單位：μs 。
（75）
75%的操作在準(zhǔn)備隊(duì)列的等待時(shí)間，單位：μs 。
（mean）
操作在準(zhǔn)備隊(duì)列的等待時(shí)間的平均值，單位：μs 。
pted
RPC請求接收的數(shù)量。
ge
Block緩存的使用量，單位：Byte 。
處于狀態(tài)的數(shù)量。
Full狀態(tài)的數(shù)據(jù)目錄個(gè)數(shù) 。
flow
RPC隊(duì)列溢出次數(shù) 。
_skew
服務(wù)器上承載的最多的數(shù)量與最少的數(shù)量的差值。
正在GC的日志數(shù)量。
d
失效的數(shù)據(jù)目錄個(gè)數(shù) 。
內(nèi)存壓力拒絕的請求個(gè)數(shù) 。
ons
內(nèi)存壓力拒絕的事務(wù)個(gè)數(shù) 。
指標(biāo)[10]
EMR 完全兼容開源版本的產(chǎn)品特性，并且在開源的基礎(chǔ)上優(yōu)化了讀寫性能，提升了與EMR其他組件快速集成的能力。
指標(biāo)
描述
數(shù)據(jù)無法從*表中任一副本獲取的次數(shù) 。
*表中數(shù)據(jù)檢查失敗的次數(shù) 。
oss
*表中數(shù)據(jù)不在任何一個(gè)副本中的次數(shù) 。
*表檢查元數(shù)據(jù)失敗的次數(shù) 。
*表中元數(shù)據(jù)丟失的次數(shù) 。
寫入*表中的Block重復(fù)的次數(shù) 。
中與狀態(tài)相關(guān)錯(cuò)誤出現(xiàn)的次數(shù) 。
網(wǎng)絡(luò)或類似的錯(cuò)誤出現(xiàn)的次數(shù) 。
中非硬件或狀態(tài)錯(cuò)誤出現(xiàn)的次數(shù) 。
分布式連接重試出錯(cuò)的次數(shù) 。
分布式連接無法找到表的次數(shù) 。
分布式連接得到的副本不新鮮的次數(shù) 。
在所有次重試結(jié)束后分布式連接失敗的次數(shù) 。
Slow Read的次數(shù) 。
由于Slow Read導(dǎo)致的線程減少的次數(shù) 。
Task
中的任務(wù)個(gè)數(shù) 。
中的任務(wù)個(gè)數(shù) 。
中的任務(wù)個(gè)數(shù) 。
ask
中的任務(wù)個(gè)數(shù) 。
ask
_pool中的任務(wù)個(gè)數(shù) 。
l中的任務(wù)個(gè)數(shù) 。
TCP連接個(gè)數(shù) 。
本文到此結(jié)束，希望對大家有所幫助。

統(tǒng)一觀測 使用Prometheus監(jiān)控E-MapReduce

統(tǒng)一觀測使用Prometheus監(jiān)控E-MapReduce