阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

Ganglia的Python扩展模块开发

116次阅读
没有评论

共计 7300 个字符,预计需要花费 19 分钟才能阅读完成。

注:本文涉及到的代码都在 CentOS 6.5 64bit 系统上通过验证,Ganglia 版本为 3.1,通过 yum 安装具体步骤请参考:http://www.linuxidc.com/Linux/2015-08/121300.htm

1. 概述

Ganglia 项目是由加州大学发起的,现在已经成为一个应用非常广泛集群监控软件。可以监视和显示集群中的节点的各种状态信息,比如如:cpu、mem、硬盘利用率,I/ O 负载、网络流量情况等,同时可以将历史数据以曲线方式通过 php 页面呈现。同时具有很好的扩展性,允许用户加入自己所要监控的状态信息。根据可视化的相关数据,很容易知道集群的健康状态,并且也可以分析出集群的可优化的地方。

所有这些数据收集会多次影响节点性能。网络中的“抖动(Jitter)”发生在大量小消息同时出现,通过 ntp 服务将节点的时钟保持一致,就可以避免这个问题。

Ganglia 的工作原理如下图

Ganglia 的 Python 扩展模块开发

更多关于 Ganglia 工作原理请参考 http://www.linuxidc.com/Linux/2015-08/121296p2.htm,本文重点是讲述如何使用 Ganglia 提供的 Python 接口开发自己想要的 metric。

2. Ganglia 的 Metrics

何为 metric,在字典中其翻译为标准,度量之意。在 ganglia 的 Web 界面中我们看得最多的是如下这些图:

Ganglia 的 Python 扩展模块开发

这些图还不能算是真正的 metric,其只是各个种类的 metric 的汇总后通过 rrdtool 画出来的图,便于总体观察。下面这些才是本文要讲述的 metric(CPU 的 metrics):

Ganglia 的 Python 扩展模块开发

每一个小图表代表着 cpu 相关信息的一个数据类型,这些数据都是通过对应的部署在各个集群节点的程序模块搜集,而这个搜集模块的开发就是本文要重点讲解的。

3. 自定义 metrics 开发

向 ganglia 加入自定义 metric 有两种方法,一种是通过命令行的方式运行 gmetric,另一种是通过 ganglia 提供的面向 c 和 python 的扩展模块,加入自定义的模块支持。下面使用 Python 开发一个简单的 metric 实例:

在 /usr/lib64/ganglia/python_modules/ 中创建 random_number.py 并添加如下代码

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import random
import time
descriptors = list()
def random_number_1(name):
    return int(random.uniform(5, 100)) + 10
def random_number_2(name):
    return int(random.randrange(50, 500))
def metric_init(params):
    global descriptors
    random.seed()
    print params
    d1 = {
        ‘name’: ‘random_number_1’,
        ‘call_back’: random_number_1,
        ‘time_max’: 90,
        ‘value_type’: ‘uint’,
        ‘units’: ‘C’,
        ‘slope’: ‘both’,
        ‘format’: ‘%u’,
        ‘description’: ‘Random a number’,
        ‘groups’: ‘example random’
    }
    d2 = {
        ‘name’: ‘random_number_2’,
        ‘call_back’: random_number_2,
        ‘time_max’: 90,
        ‘value_type’: ‘uint’,
        ‘units’: ‘C’,
        ‘slope’: ‘both’,
        ‘format’: ‘%u’,
        ‘description’: ‘Random a number’,
        ‘groups’: ‘example random’
    }
    descriptors = [d1, d2]
    return descriptors
def metric_cleanup():
    pass

#This code is for debugging and unit testing
if __name__ == ‘__main__’:
    metric_init({})
    while True:
        for d in descriptors:
            v = d[‘call_back’](d[‘name’])
            print (‘value for %s is ‘+d[‘format’]) % (d[‘name’], v)
        time.sleep(5)

在上面的代码中 Ganglia 运行的时候会调用 metric_init 和 metric_cleanup 两个函数,从这两个函数的名字我们就能得知前一个是做初始化工作,后面一个是做结束资源清理工作的。在 Ganglia 加载相关模块来运行时,只会调用这两个函数。这里的 main 函数入口只是为了做调试而写在这里的。

在 /etc/ganglia/conf.d/ 中创建 random_number.conf 文件,并添加如下代码

modules {

  module {

# 这里的 name 值一定要与 /usr/lib64/ganglia/python_modules/random_number.py 的文件名保持一致,否则将无法正确运行

    name = “random_number”

    language = “python”

  }

collection_group {

  collect_every = 2

  time_threshold = 90

 

  metric {

    #这里的 name 值要与 random_number.py 中的 d1 里的 name 保持一致

    name = “random_number_1”

    title = “random number 1”

    value_threshold = 0

  }

 

  metric {

    #这里的 name 值要与 random_number.py 中的 d2 里的 name 保持一致

    name = “random_number_2”

    title = “random number 2”

    value_threshold = 0

  }

}

配置好文件后重启服务

service gmond restart

service gmetad restart

service httpd restart

更多详情见请继续阅读下一页的精彩内容 :http://www.linuxidc.com/Linux/2015-08/121301p2.htm

————————————– 分割线 ————————————–

使用 Ganglia 监控 Hadoop 集群 http://www.linuxidc.com/Linux/2012-05/61349.htm

在 VMware Workstation 的 Ubuntu 下安装和配置 Hadoop 与 Ganglia http://www.linuxidc.com/Linux/2013-06/85856.htm

Ganglia 安装部署之一建立 Grid http://www.linuxidc.com/Linux/2013-05/83673.htm

Ganglia 极其简单安装教程 yum 版 http://www.linuxidc.com/Linux/2012-12/76536.htm

Ganglia 快速开始向导(翻译自官方 wiki)http://www.linuxidc.com/Linux/2013-11/92747.htm

CentOS 集群上安装 Ganglia-3.6.0 监控 Hadoop-2.2.0 和 HBase-0.96.0 http://www.linuxidc.com/Linux/2014-01/95804.htm

Ganglia 在 CentOS 6.5 的安装 http://www.linuxidc.com/Linux/2014-05/102024.htm

在 Ubuntu 14.04 Server 上安装 Ganglia http://www.linuxidc.com/Linux/2014-08/105838.htm

————————————– 分割线 ————————————–

4. 效果

在浏览器中输入 127.0.0.1/ganglia 即可看到监控效果,如果不出问题,则在 Metric 下拉框中会有如下两个选项:

Ganglia 的 Python 扩展模块开发

选择其中一项则在当前页面的最下端显示如下信息:

Ganglia 的 Python 扩展模块开发

5. 总结

本文只是讲述了最为简单的 Ganglia metric 开发,如果想深入了解可以参考 Ganglia 的官方文档,或者去 https://github.com/ganglia 上直接查看源码,其中 gmond_Python_modules 项目里提供了大量常见项目的 metrics 示例。

Ganglia 为集群提供了高可视化的监控,不仅能让运维人员快速的清楚集群当前的状态,而且还能让开发人员清楚系统的相关运行状态,从而针对性的做出更好的优化。

本文永久更新链接地址 :http://www.linuxidc.com/Linux/2015-08/121301.htm

注:本文涉及到的代码都在 CentOS 6.5 64bit 系统上通过验证,Ganglia 版本为 3.1,通过 yum 安装具体步骤请参考:http://www.linuxidc.com/Linux/2015-08/121300.htm

1. 概述

Ganglia 项目是由加州大学发起的,现在已经成为一个应用非常广泛集群监控软件。可以监视和显示集群中的节点的各种状态信息,比如如:cpu、mem、硬盘利用率,I/ O 负载、网络流量情况等,同时可以将历史数据以曲线方式通过 php 页面呈现。同时具有很好的扩展性,允许用户加入自己所要监控的状态信息。根据可视化的相关数据,很容易知道集群的健康状态,并且也可以分析出集群的可优化的地方。

所有这些数据收集会多次影响节点性能。网络中的“抖动(Jitter)”发生在大量小消息同时出现,通过 ntp 服务将节点的时钟保持一致,就可以避免这个问题。

Ganglia 的工作原理如下图

Ganglia 的 Python 扩展模块开发

更多关于 Ganglia 工作原理请参考 http://www.linuxidc.com/Linux/2015-08/121296p2.htm,本文重点是讲述如何使用 Ganglia 提供的 Python 接口开发自己想要的 metric。

2. Ganglia 的 Metrics

何为 metric,在字典中其翻译为标准,度量之意。在 ganglia 的 Web 界面中我们看得最多的是如下这些图:

Ganglia 的 Python 扩展模块开发

这些图还不能算是真正的 metric,其只是各个种类的 metric 的汇总后通过 rrdtool 画出来的图,便于总体观察。下面这些才是本文要讲述的 metric(CPU 的 metrics):

Ganglia 的 Python 扩展模块开发

每一个小图表代表着 cpu 相关信息的一个数据类型,这些数据都是通过对应的部署在各个集群节点的程序模块搜集,而这个搜集模块的开发就是本文要重点讲解的。

3. 自定义 metrics 开发

向 ganglia 加入自定义 metric 有两种方法,一种是通过命令行的方式运行 gmetric,另一种是通过 ganglia 提供的面向 c 和 python 的扩展模块,加入自定义的模块支持。下面使用 Python 开发一个简单的 metric 实例:

在 /usr/lib64/ganglia/python_modules/ 中创建 random_number.py 并添加如下代码

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import random
import time
descriptors = list()
def random_number_1(name):
    return int(random.uniform(5, 100)) + 10
def random_number_2(name):
    return int(random.randrange(50, 500))
def metric_init(params):
    global descriptors
    random.seed()
    print params
    d1 = {
        ‘name’: ‘random_number_1’,
        ‘call_back’: random_number_1,
        ‘time_max’: 90,
        ‘value_type’: ‘uint’,
        ‘units’: ‘C’,
        ‘slope’: ‘both’,
        ‘format’: ‘%u’,
        ‘description’: ‘Random a number’,
        ‘groups’: ‘example random’
    }
    d2 = {
        ‘name’: ‘random_number_2’,
        ‘call_back’: random_number_2,
        ‘time_max’: 90,
        ‘value_type’: ‘uint’,
        ‘units’: ‘C’,
        ‘slope’: ‘both’,
        ‘format’: ‘%u’,
        ‘description’: ‘Random a number’,
        ‘groups’: ‘example random’
    }
    descriptors = [d1, d2]
    return descriptors
def metric_cleanup():
    pass

#This code is for debugging and unit testing
if __name__ == ‘__main__’:
    metric_init({})
    while True:
        for d in descriptors:
            v = d[‘call_back’](d[‘name’])
            print (‘value for %s is ‘+d[‘format’]) % (d[‘name’], v)
        time.sleep(5)

在上面的代码中 Ganglia 运行的时候会调用 metric_init 和 metric_cleanup 两个函数,从这两个函数的名字我们就能得知前一个是做初始化工作,后面一个是做结束资源清理工作的。在 Ganglia 加载相关模块来运行时,只会调用这两个函数。这里的 main 函数入口只是为了做调试而写在这里的。

在 /etc/ganglia/conf.d/ 中创建 random_number.conf 文件,并添加如下代码

modules {

  module {

# 这里的 name 值一定要与 /usr/lib64/ganglia/python_modules/random_number.py 的文件名保持一致,否则将无法正确运行

    name = “random_number”

    language = “python”

  }

collection_group {

  collect_every = 2

  time_threshold = 90

 

  metric {

    #这里的 name 值要与 random_number.py 中的 d1 里的 name 保持一致

    name = “random_number_1”

    title = “random number 1”

    value_threshold = 0

  }

 

  metric {

    #这里的 name 值要与 random_number.py 中的 d2 里的 name 保持一致

    name = “random_number_2”

    title = “random number 2”

    value_threshold = 0

  }

}

配置好文件后重启服务

service gmond restart

service gmetad restart

service httpd restart

更多详情见请继续阅读下一页的精彩内容 :http://www.linuxidc.com/Linux/2015-08/121301p2.htm

————————————– 分割线 ————————————–

使用 Ganglia 监控 Hadoop 集群 http://www.linuxidc.com/Linux/2012-05/61349.htm

在 VMware Workstation 的 Ubuntu 下安装和配置 Hadoop 与 Ganglia http://www.linuxidc.com/Linux/2013-06/85856.htm

Ganglia 安装部署之一建立 Grid http://www.linuxidc.com/Linux/2013-05/83673.htm

Ganglia 极其简单安装教程 yum 版 http://www.linuxidc.com/Linux/2012-12/76536.htm

Ganglia 快速开始向导(翻译自官方 wiki)http://www.linuxidc.com/Linux/2013-11/92747.htm

CentOS 集群上安装 Ganglia-3.6.0 监控 Hadoop-2.2.0 和 HBase-0.96.0 http://www.linuxidc.com/Linux/2014-01/95804.htm

Ganglia 在 CentOS 6.5 的安装 http://www.linuxidc.com/Linux/2014-05/102024.htm

在 Ubuntu 14.04 Server 上安装 Ganglia http://www.linuxidc.com/Linux/2014-08/105838.htm

————————————– 分割线 ————————————–

正文完
星哥说事-微信公众号
post-qrcode
 
星锅
版权声明:本站原创文章,由 星锅 2022-01-20发表,共计7300字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中