我们在阿里云有 8 台 ECS
其中一些服务器 突然重启过, 这种事情一共有三次。
第一次 是去年十一假期, 当时服务器刚上线, 一些配置还没写入到 /etc/rc.local 中
如果服务器重启,那么我们的服务是没有自动启动的。
还好,当时旅游是 十月一号下午出去, 上午服务器重启了,用户反映无法登录。
最后及时把问题处理了。
后面 所有机器都配置了 /etc/rc.local , 重启也不怕了
但是 第二次,第三次重启 还是造成了 两分钟左右的服务不可用。
前几次都提过工单, 但是后面都不了了之。
昨晚这次重启, 又提交过一次工单
阿里云客服首先是 引导我去买他们的 SSD 云盘。
然后我把 syslog 给他们看,
他们终于说出了实情:
真是蛋疼!!!
下个项目 还是上 ucloud 吧!
1
nonoroazoro 2015-09-14 11:37:40 +08:00
秒懂。
|
2
lucifer9 2015-09-14 11:43:57 +08:00
三台恰好都在一个物理机上确实挺悲剧的
|
3
cyl5753 2015-09-14 11:45:15 +08:00
ECS 的问题真是多啊,之前碰到 CPU 总是 100%的问题客服最终也没搞定。
|
4
chenshaoju 2015-09-14 11:45:54 +08:00
所以……这并不是什么云服务器,只是 VPS 而已?
|
5
knightdf 2015-09-14 11:46:42 +08:00
为啥不用 aws
|
6
zzxworld 2015-09-14 11:48:30 +08:00
用他家主要也就是为了备案方便。
|
7
yp2800 2015-09-14 12:08:37 +08:00
据我使用经验,母机有时候监控突然物理机 cpu100%,有可能是超负荷了,或者多 cpu 之间有时负载不匀,导致虚拟机不响应,死掉了,如果对虚拟机状态有监控的话,一般会发现死机前系统运行的很稳定一个状态
|
8
yexm0 2015-09-14 12:15:24 +08:00 via Android
目测阿里是堕落到跟搬瓦工比在线时间了
|
9
jianyunet 2015-09-14 12:21:16 +08:00
@chenshaoju 我感觉他家的 ecs 其实就是 vps ,不是单纯镜像
|
10
chenshaoju 2015-09-14 12:22:40 +08:00
@jianyunet 不发表意见,我没用过阿里云的服务……
|
11
leassy 2015-09-14 12:26:38 +08:00
楼主是在打广告吗
有需要的可以找我,天翼云 8 折 哈哈,逃~~~ |
12
xzchina 2015-09-14 12:31:39 +08:00
阿里云就是垃圾
|
13
9hills 2015-09-14 12:40:23 +08:00
@chenshaoju 哪个云服务支持不间断宕机迁移?
|
15
chenshaoju 2015-09-14 12:51:41 +08:00
@9hills 不知道
|
16
9hills 2015-09-14 12:53:55 +08:00
|
17
9hills 2015-09-14 12:56:10 +08:00
@chenshaoju 目前提供的公有云,私有云。纯粹的 VM 是没有不间断宕机迁移这个功能的。
你想想也不可能啊,磁盘可以用中心 or 分布式存储来保证一样。进程状态你总不能实时同步过去吧。。 只能在上层架构上做容错和冗余 |
19
xuhaoyangx 2015-09-14 13:01:17 +08:00
一直觉得阿里的不是云, qingcloud 的还不错,只不过青云的挂掉几率比阿里还高
|
20
twl007 2015-09-14 13:05:43 +08:00
@yp2800 卧槽 这个问题还没解决啊! 我 11 年开始用的时候就有了 那时候扯皮工程师就说是我们的问题 问题我们程序屁都没动啊 为了这个问题车皮好久 经常莫名其妙的就 100% 根本找不到原因 但是说是阿里云的问题我们又不可能拿到物理机的证据 阿里云也不给 巨坑无比
|
21
ipconfiger 2015-09-14 13:22:06 +08:00 1
ucloud 都是商业用户, 稳定性要好很多了,反正我的机器 uptime 都快 2 年了
|
22
cnhejia 2015-09-14 13:25:33 +08:00
物理机总是会出现宕机的情况的,这个不可避免。
阿里云宕机迁移后数据存储是分布式的所以物理机不会影响数据安全性。 但内存数据遇到突然宕机是没办法的。这个估计哪家服务商都一样吧, VMWare 的 HA 也是物理机没有突然挂掉的情况下实现的。 |
23
atom 2015-09-14 13:28:40 +08:00
因为他家虚拟机间的隔离性不好
|
25
show8salary 2015-09-14 14:18:05 +08:00
坐等阿里云解释
|
26
Havee 2015-09-14 14:27:02 +08:00
其实他家自己的云盾吃了太多的资源,我一直认为阿里不是做技术也不是做产品,完完全全就是营销为王。
|
27
c742435 2015-09-14 14:35:27 +08:00
虽然虚拟机可以热迁移 但是主机跪了就啥用也没有了
|
28
9hills 2015-09-14 15:13:16 +08:00
|
29
9hills 2015-09-14 15:21:30 +08:00
@echo1937 当然 FT 说能做到 1ms delay 。。。对大部分业务来说足够了,几乎无感知。
但是代价是算钱算双份,另外开源界应该还没有相应的实现出来。 |
30
dudesun 2015-09-14 15:36:16 +08:00
自己不会用怨别人?典型的半瓶子醋
|
32
ksex 2015-09-14 16:50:03 +08:00
打广告还要黑一下阿里云 6666
|
33
est 2015-09-14 17:05:14 +08:00
我觉得虚拟机的 HA 技术挺神奇的。比如我买了个 256G 内存的机器,突然掉电, host 母鸡是需要瞬间持久化序列化这 256G 数据啊。想想真是碉堡了。
|
34
likuku 2015-09-14 17:15:41 +08:00
GAE 这种的代码丢云上就 OK ,其它所有资源都靠 API 来读写的,才能称为真正含义上的云吧。
|
35
wintersun 2015-09-14 17:47:19 +08:00
|
36
em70 2015-09-14 18:07:19 +08:00 via Android
这贴 99%可能是广告
|
37
ipconfiger 2015-09-14 18:21:26 +08:00
@est 要做到秒级快照就有可能实现
|
38
9hills 2015-09-14 18:27:34 +08:00
|
39
9hills 2015-09-14 18:30:41 +08:00
@est vmware 是这么实现的: http://www.vmware.com/files/pdf/resources/ft_virtualization_wp.pdf
将 Input (network, user ),asynchronous I/O (disk,devices ), CPU timer events ,在备机 replay ,号称 delay 只有 1ms 碉堡了有没有,反正开源的我还没见过这么厉害的 |
40
geeklian 2015-09-14 18:33:55 +08:00 via Android
@9hills vmware 的 ft 技术可以。但是目前 cpu 限制单核,确实是利用光纤同步内存实现的。可能也就我们银行业会用。
|
42
geeklian 2015-09-14 18:37:09 +08:00 via Android
|
43
shiny 2015-09-14 18:37:16 +08:00
之前的阿里云有过三年的 uptime ,刚出来就买的
|
45
geeklian 2015-09-14 18:40:43 +08:00 via Android
@9hills 4 核倒是方便了,不过 esxi 最好部署 x.5update5 以后的版本才足够稳定
|
46
sunyang 2015-09-14 18:41:29 +08:00
![未命名图片.png]( https://ooo.0o0.ooo/2015/09/14/55f6a453c61d9.png "未命名图片.png")
@yexm0 说起来搬瓦工 |
47
geeklian 2015-09-14 18:43:33 +08:00 via Android
@9hills 售价不知道啊....不过我接触的几个银行卷商,都是和 vmware 谈的买断协议....作为运维拿来就用就是了
|
53
maxsec 2015-09-14 22:36:28 +08:00
呵呵呵 广告太明显 200G 流量送上
|
54
Andy1999 2015-09-14 22:49:21 +08:00 via iPhone
快来用腾讯云 百倍补偿 233
|
55
x615 2015-09-14 23:14:21 +08:00
是阿里云的服务器,不是阿里的云服务器。
|
57
loqixh 2015-09-15 08:43:56 +08:00
xen 和 kvm 都可以动态迁移,不过代价很高。。。
|
58
shawshank 2015-09-15 11:03:47 +08:00 2
我是从 Ucloud 迁移到阿里云的,当时我们被 DDos ,峰值才十几个 G 的时候, Ucloud 跟我说他们整个机房都被我们拖慢了,其他用户在投诉。后来临时接了个第三方的云盾,然后峰值达到了 30G 。事后, Ucloud 说我们应该是被别人盯上了,建议迁移到友商阿里云。从此, Ucloud 一生黑
|
59
xiawinter 2015-09-15 13:22:50 +08:00
@ipconfiger 机器稳定不稳定不好说,但是网络挂个 5 个小时我会乱说
|
60
weisdong 2015-09-15 16:11:18 +08:00
看着各位吐槽,忍不住夸一夸网宿的服务了,嘿嘿。
|
61
feicheche 2015-09-16 10:09:29 +08:00
这种踩着别人往上爬实在是不太好。
|
62
esplendo 2015-09-16 22:07:16 +08:00
|