k8spod指标监控，k8s gpu监控

原标题：k8spod指标监控，k8s gpu监控

导读：

如何部署prometheus监控k8s?如果由于镜像拉取不到导致pod pending，请将其替换成可获取到的镜像地址。卸载如果计划保留prometheus-operator...

如何部署 prometheus 监控 k8s?

如果由于镜像拉取不到导致 Pod pending，请将其替换成可获取到的镜像地址。卸载如果计划保留prometheus-operator，不执行卸载步骤：kubectl delete --ignore-not-found=true -f manifests/ -f manifests/setup。

下载 Node Exporter。将node Exporter部署到指定位置。将Node Exporter添加到系统服务中，确保其能正常提供监控数据。Prometheus 集成Node Exporter：在Prometheus配置文件中，配置Node Exporter作为数据源。确保Prometheus能够抓取到Node Exporter提供的监控数据，以监控节点的健康状态和性能指标。

登录Prometheus系统。点击“Status”下的“Rules”菜单，查看和管理监控项。若需修改监控项，在默认监控项目目录中进行，并通过命令行重新加载配置。在“Alerts”选项卡中查看报警状态，颜色代表不同状态。Grafana大屏展示与接入：获取Grafana服务名，通常是monitorgrafana。

独立部署Prometheus使用nodeexporter+CADvisor+kubestatemetrics监控k8s集群的步骤如下：搭建环境：Prometheus Server：部署在指定的节点上。Node Exporter：在Kubernetes集群的每个节点上安装，用于收集节点级的监控数据。部署kubestatemetrics：位置：部署在指定的节点上。

要开始在 kubernetes 集群上设置 Prometheus 监控，首先，假定您已经拥有一个 Kubernetes 集群，并使用 kubectl 进行操作。推荐您访问官方 Docker hub 账户以获取最新 Prometheus 镜像，以此为基础进行配置。

首先，需要搭建环境，确保所有的组件（Prometheus Server、Node Exporter、cAdvisor、kube-state-metrics）都运行在各自指定的节点上。例如，Prometheus Server部署在IP为191621的节点上，而Kubernetes集群的节点（如1916221213）则需要安装Node Exporter，用于收集节点级的监控数据。

K8S容器编排之pod健康检测(1)

K8S容器编排中的POD健康检测主要通过LivenessProbe和ReadinessProbe两种探针机制来实现。LivenessProbe：作用：关注容器是否存活。即使容器仍在运行，但如果无法正常响应请求或执行特定任务，它会被Kubernetes重启。探测方式： exec命令：通过执行容器内的命令来检查文件状态或进程状态。

Kubernetes通过两种探针机制来监控Pod的健康状态：LivenessProbe和ReadinessProbe。LivenessProbe关注容器是否存活，即使容器运行但无法正常响应请求，也会被重启；ReadinessProbe则检查容器是否准备好接收请求，不响应的Pod会被从服务的Endpoint中移除。

在Kubernetes集群中，Pod健康检测是确保系统稳定性和可靠性的重要手段。Kubernetes提供了两类专门设计的探针（Probe）来执行对Pod的健康状态检测，分别用于判断容器是否存活和是否准备好接受请求。存活探针（LivenessProbe）主要用于检查容器是否依然处于运行状态，并确定容器是否能够重启。

数字化 转型,Prometheus监控K8s资源 常用指标

1、**节点CPU使用率使用`node_cpu_seconds_total`指标，该指标为计数类型，统计CPU在各种模式下所花费的时间，代表CPU时间片的累积值。 **节点内存使用率节点内存监控指标解释如下。

2、参与数据中心基础元数据管理系统的开发，实现资源线上全生命周期管理。

3、可观测能力：微服务架构下，应用数量较多，定位问题困难，可观测能力是必不可少的，SAE 结合阿里云的 ARMS、云监控、SLS、Prometheus 等产品，在 Metrics、Tracing、Logging 等方面都提供了相对完整的解决方案，切实解决开发者在可观测方面的痛点，包括基础监控、调用链、实时日志、事件等等。

4、CKA全称Certified Kubernetes Administrator，是一门在线考试，全程需要向考官分享摄像头和屏幕，考试费用 300 美元。考试时间3小时，总共24道实操题，不同的题目有不同的分数比重，74分通过，难度适中。

5、kubernetes已经成为容器编排领域的事实性标准，Kubernetes 不仅使得应用交付更便捷、大规模的微服务部署更容易，同时让 DevOps 理念和敏捷 IT 更容易落地。Kubernetes 将助力企业在数字化转型过程中实现弯道超车。

通过Prometheus-Operator实现对k8s集群的监控

特此说明：本篇时基于prometheus-operator官网提供的kube-prometheus原生包进行部署的，由于我的k8s集群为10版本，考虑到对原生的兼容性，发现官方从release-0.5已经开始支持k8s18了，但是在实际使用中我使用的最新版本安装包并没有报错。

Prometheus-Operator 是一个用于简化 Kubernetes 中 Prometheus 监控的解决方案，它提供自动部署、管理和配置服务。通过 ServiceMonitor，用户无需底层配置即可实现对K8s应用的自动监控。本文将详细介绍它的使用方法和关键组件。

为了实现prometheus监控k8s内的应用，prometheus-operator通过servicemonitor配置与服务对象关联，通过podmonitor与pod组关联。servicemonitor对象解耦了监控需求与实现方式，仅需使用label-selector声明监控需求，无需过多关注具体的实现细节。最终，operator会将这些需求转化为原始的复杂scrape配置。

设置 Prometheus 后，还需进一步配置警报管理器，以处理 Prometheus 指标的警报机制。此外，借助 Grafana，可以从 Prometheus 指标中创建仪表板，实现对 Kubernetes 集群的监控。对于节点级别的监控，推荐部署 Node Exporter 以收集 Kubernetes 节点的 Linux 系统级指标。

独立部署Prometheus使用nodeexporter+cAdvisor+kubestatemetrics监控k8s集群的步骤如下：搭建环境：Prometheus Server：部署在指定的节点上。Node Exporter：在Kubernetes集群的每个节点上安装，用于收集节点级的监控数据。部署kubestatemetrics：位置：部署在指定的节点上。

部署独立的Prometheus监控系统，可以有效地跟踪和管理Kubernetes集群的健康状态。本文将通过实际步骤，详细介绍如何配置Prometheus、Node Exporter、cAdvisor和kube-state-metrics以实现对Kubernetes集群的监控。

教你使用Prometheus-Operator进行K8s集群监控

安装与配置确保K8s集群版本与Prometheus-Operator版本兼容，从github下载对应版本。安装时需要注意，可能需要替换镜像以解决国内网络问题。卸载则需运行特定命令，但建议保留Operator以进行持续监控。监控应用示例首先创建Deployment和Service，将服务8080端口暴露为指标。

要想使用 Prometheus Operator 监控 Kubernetes 集群中的应用，Endpoints 对象必须存在。Endpoints 对象本质是一个 IP 地址列表。通常，Endpoints 对象由 Service 构建。Service 对象通过对象选择器发现 Pod 并将它们添加到 Endpoints 对象中。

操作：定期检查监控系统的性能和准确性。目的：确保所有组件正常运行，及时发现问题并进行调整。通过以上步骤，您可以成功搭建一个独立的Prometheus监控系统，使用nodeexporter、cAdvisor和kubestatemetrics对Kubernetes集群进行全面监控。

使用metrics-server监控k8s的资源指标

在部署文件的第 139 行，追加参数 --kubelet-insecure-tls。修改后的配置如下所示。完成参数添加后，重新部署文件。随后，检查 pod 运行状态，确认已正常启动。执行 kubectl top 命令成功获取资源指标。同时，通过代码方式获取资源指标，如使用相关工具或编写脚本进行监控。最后，推荐使用 DHorse 进行部署和监控应用，它能够有效管理 k8s 环境。

k8s提供top命令统计资源使用情况，包含node和pod子命令，显示节点和Pod对象的资源使用信息。kubectl top命令依赖metrics接口，系统默认未安装，需单独部署。部署流程包括：下载metrics-server-COMponents.yaml部署文件，修改镜像地址至国内镜像仓库，使用命令实现修改。部署metrics接口后，需查看该metric pod运行情况。

Prometheus Server：部署在指定的节点上。Node Exporter：在Kubernetes集群的每个节点上安装，用于收集节点级的监控数据。部署kubestatemetrics：位置：部署在指定的节点上。功能：收集Kubernetes API 服务器的数据，并将这些数据转换为Prometheus可以理解的格式，用于监控Kubernetes资源的状态。