阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

搭建 Telegraf + InfluxDB + Grafana 监控遇到问题及解决

260次阅读
没有评论

共计 990 个字符,预计需要花费 3 分钟才能阅读完成。

1:如果同一台服务器上安装有多个 MongoDB 实例,telegraf.conf 中关于 MongoDB 如何配置? 配置数据在【INPUT PLUGINS 的 [[inputs.mongodb]]】部分。

单个实例配置

servers = ["mongodb://UID:PWD@XXX.XXX.XXX.124:27218"]

错误的多实例配置(例如两个实例);

servers = ["mongodb://UID:PWD@XXX.XXX.XXX.124:27218"]
   servers = ["mongodb://UID:PWD@XXX0.XXX.XXX.124:27213"]

重启服务,查看服务状态,提示错误信息如下;

Failed to start The plugin-driven server agent for reporting metrics into InfluxDB.

搭建 Telegraf + InfluxDB + Grafana 监控遇到问题及解决

正确的配置应该为;

servers = ["mongodb://UID:PWD@XXX.XXX.XXX.124:27213","mongodb://UID:PWD@XXX.XXX.XXX.124:27218"]

2. 配置 Grafana 告警规则后,发现只是告警一次,后面恢复后再报警一次。即异常持续期间没有一直告警。

解决办法,这个设置其实在【Alterting】–》【Notification channels】–>【Send reminders】

搭建 Telegraf + InfluxDB + Grafana 监控遇到问题及解决

 例如以下的设置可以理解为,每 5 分钟触发一下告警信息。

搭建 Telegraf + InfluxDB + Grafana 监控遇到问题及解决

3. 告警检查显示没有数据。

搭建 Telegraf + InfluxDB + Grafana 监控遇到问题及解决

这个时候有两种原因

(1)收集监控项的代理程序有问题;

(2)或者是代理程序没问题,是汇报数据不及时的问题。

针对第二问题,我们可以调整代理程序执行频率;如果实时性要求不是很高,还可以调整告警规则检查数据的时间范围。

例如,我们可以从检查 过去 5 分钟到过去 1 分钟内的数据,调整为过去 10 分钟到过去 5 分钟内的数据。对应的设置如下:

调整前;

搭建 Telegraf + InfluxDB + Grafana 监控遇到问题及解决

调整后

搭建 Telegraf + InfluxDB + Grafana 监控遇到问题及解决

4. 随着需要监控的子项的增多,收集时间必然增多,需要调整运行周期。

否则,报错信息如下;

telegraf[2908]: 2019-03-01T02:40:46Z E! Error in plugin [inputs.MySQL]: took longer to collect than collection interval (10s)

解决方案:调整 telegraf.conf 文件中 [agent] 部分的 interval 参数。

搭建 Telegraf + InfluxDB + Grafana 监控遇到问题及解决

正文完
星哥说事-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2022-01-21发表,共计990字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中