博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
linux服务器集群运维经验
阅读量:7010 次
发布时间:2019-06-28

本文共 1309 字,大约阅读时间需要 4 分钟。

公司大概有5000+以上的服务器节点,包括各种应用,我和同事共同维护大约2500+的服务器,主要包括一些视频cdn,直播视频cdn,webcdn和p2p服务器。

 以下是自己在运维工作中的一点经验和看法,希望对大家有所帮助
  1.       服务器型号的区分,为以后的统一化和标准化作硬件上的准备,很多人忽视这一点,其实如果这一点做得好会使后面的运维工作轻松很多,根据应用我们主要把服务器分为3中,cpu密集型,主要用于大量计算应用,比如p2p;内存密集型,用于cache类应用,比如squid,varnish缓存服务器;磁盘密集型,用于大存储类应用,比如视频存储服务器,hadoop日志存储集群。
2.       系统的的自动安装,主要有kickstart和cobbler
3.       统一的yum源和定制化的rpm包, 并集成至yum源站,为后续的环境初始化做软件上的准备
4.       构建专属于自己的内网DNS
5.       标准化的统一的命名方式(标准化基础),便于使用puppet管理,并且减少操作的错误,如果每个机器的hostname都为localhost,那将是一个多么可怕的事。。。在我们的生产环境中主要使用下面这种命名方式
机房-主业务-应用程序-IP后两位-公司域名,这样一眼就可以看出是哪台服务器,应用于什么业务,报警也可以直接定位。
 
6.自动化的配置管理和环境部署工具:puppet,puppet的模块编写要尽量减少模块直接的耦合度,并使用class继承的方式来减少运维的工作量,定制化的facter变量会使软件的配置环境更加灵活,由于puppet暂时不支持群集,所以在实际应用中需要部署多套,根据经验,1500台左右的server时puppet会出现性能问题。
 
7.       强大有效的监控系统,在生产环境中我们使用了zabbix proxy+zabbix master的群集结构,zabbix可以实现有效的系统和应用级别的监控,应用监控同时也使用了ppmon来实现多点监控。
选择zabbix有一个最大的好处,就是监控数据是存放在数据库中的,这样就可以利用数据库中的数据做很多操作,比如可以分析一段时间内服务器的各个性能指标,查看服务器的资源利用率,可以对数据进行聚合操作,从而分析全网的指标,比如总的流量,总的http code分布情况。
 
8.       日志收集服务器群集 和qos分析系统,构建 有效的日志收集系统可以有效地对用户的访问数据进行整合和分析,可以快速的分析qos,对应重要的节点我们采用本地分析并导入mongodb,最后导入zabbix的方式,非重要节点则直接将日志打包压缩,通过ftp上传至hadoop数据仓库集群中。
9.       构建冗余的结构,消除单点,在生成环境中对于一些重要节点都采用keepalived-ha的方案来提高冗余度。对于resin,php等应用服务器则在前端使用nginx做反向代理,同时nginx使用keepalived-ha
  10.   自动化的代码分发系统,主要是controltier + svn的使用,可以方便快速地部署代码。 
以上是自己的一点经验,欢迎大家来拍砖。
本文出自 “ ” 博客,请务必保留此出处

转载地址:http://sqvtl.baihongyu.com/

你可能感兴趣的文章
Timus Online Judge 1057. Amount of Degrees(数位dp)
查看>>
jquery中关于表格行的增删问题
查看>>
分布式事务,EventBus 解决方案:CAP【中文文档】
查看>>
GUI进化--数据与界面分离
查看>>
三级菜单实例
查看>>
Teleport Pro使用教程
查看>>
C# 如何生成CHM帮助文件
查看>>
Java编程的逻辑 (93) - 函数式数据处理 (下)
查看>>
一对多多对多的建表原则
查看>>
Maven详解(四)------ 常用的Maven命令
查看>>
可视化之Berkeley Earth
查看>>
线性表的顺序存储结构之顺序表类的实现_Java
查看>>
Hadoop的namenode的管理机制,工作机制和datanode的工作原理
查看>>
AX88772B 驱动移植
查看>>
array
查看>>
背水一战 Windows 10 (60) - 控件(媒体类): Pointer 涂鸦板, InkCanvas 涂鸦板
查看>>
[转]Repeat Page Header on each Page for reports SSRS
查看>>
一次误报引发的DNS检测方案的思考:DNS隧道检测平民解决方案
查看>>
Python操作SQLAlchemy之连表操作
查看>>
什么是架构师?
查看>>