职位描述
主要职责:
1、负责中国电信PaaS平台及其核心组件(包括Kubernetes、CTGSLB、大数据组件、、nacos等)的监控指标体系设计、实现与持续优化。
2、基于Prometheus进行监控方案的开发、部署与调优,编写高采集脚本。基于Grafana开发可视化监控大屏和仪表盘,为运维和团队提供直观、准确的性能视图。
3、设计和配置合理的告警规则,优化告警阈值,减少误报和漏报,确保告警信息能够准确、及时地通知到相关责任人。
4、承担部分Kubernetes集群的日常运维工作,包括节点的扩缩容、基础组件的部署与升级、组件问题的排查等。
职位要求:
1、计算机相关专业本科及以上学历,2年及以上监控系统开发或运维开发经验,有大型PaaS平台或云平台监控经验者优先。
2、熟练掌握 Go 或 Python 中的至少一门语言,能够进行自动化脚本和工具的开发。
3、熟悉Prometheus的架构,有编写自定义exporter的能力。熟悉Grafana,熟悉各种图表类型和数据源配置。
4、熟悉Kubernetes的架构和核心概念,了解其组件的监控方法。