Doctor requirement deliverable
[doctor.git] / requirements / 04-gaps.rst
1 Gap analysis in upstream projects
2 =================================
3
4 This section presents the findings of gaps on existing VIM platforms. The focus
5 was to identify gaps based on the features and requirements specified in Section
6 3.3. The analysis work determined gaps that are presented here.
7
8 VIM Northbound Interface
9 ------------------------
10
11 Immediate Notification
12 ^^^^^^^^^^^^^^^^^^^^^^
13
14 * Type: 'deficiency in performance'
15 * Description
16
17   + To-be
18
19     - VIM has to notify unavailability of virtual resource (fault) to VIM user
20       immediately.
21     - Notification should be passed in '1 second' after fault detected/notified
22       by VIM.
23     - Also, the following conditions/requirement have to be met:
24
25       - Only the owning user can receive notification of fault related to owned
26         virtual resource(s).
27
28   + As-is
29
30     - OpenStack Metering 'Ceilometer' can notify unavailability of virtual
31       resource (fault) to the owner of virtual resource based on alarm
32       configuration by the user.
33
34       - Ceilometer Alarm API:
35         http://docs.openstack.org/developer/ceilometer/webapi/v2.html#alarms
36
37     - Alarm notifications are triggered by alarm evaluator instead of
38       notification agents that might receive faults
39
40       - Ceilometer Architecture:
41         http://docs.openstack.org/developer/ceilometer/architecture.html#id1
42
43     - Evaluation interval should be equal to or larger than configured pipeline
44       interval for collection of underlying metrics.
45
46       - https://github.com/openstack/ceilometer/blob/stable/juno/ceilometer/alarm/service.py#L38-42
47
48     - The interval for collection has to be set large enough which depends on
49       the size of the deployment and the number of metrics to be collected.
50     - The interval may not be less than one second in even small deployments.
51       The default value is 60 seconds.
52     - Alternative: OpenStack has a message bus to publish system events.
53       The operator can allow the user to connect this, but there are no
54       functions to filter out other events that should not be passed to the user
55       or which were not requested by the user.
56
57   + Gap
58
59     - Fault notifications cannot be received immediately by Ceilometer.
60
61 Maintenance Notification
62 ^^^^^^^^^^^^^^^^^^^^^^^^
63
64 * Type: 'missing'
65 * Description
66
67   + To-be
68
69     - VIM has to notify unavailability of virtual resource triggered by NFVI
70       maintenance to VIM user.
71     - Also, the following conditions/requirements have to be met:
72
73       - VIM should accept maintenance message from administrator and mark target
74         physical resource "in maintenance".
75       - Only the owner of virtual resource hosted by target physical resource
76         can receive the notification that can trigger some process for
77         applications which are running on the virtual resource (e.g. cut off
78         VM).
79
80   + As-is
81
82     - OpenStack: None
83     - AWS (just for study)
84
85       - AWS provides API and CLI to view status of resource (VM) and to create
86         instance status and system status alarms to notify you when an instance
87         has a failed status check.
88         http://docs.aws.amazon.com/AWSEC2/latest/UserGuide/monitoring-instances-status-check_sched.html
89       - AWS provides API and CLI to view scheduled events, such as a reboot or
90         retirement, for your instances. Also, those events will be notified
91         via e-mail.
92         http://docs.aws.amazon.com/AWSEC2/latest/UserGuide/monitoring-system-instance-status-check.html
93
94   + Gap
95
96     - VIM user cannot receive maintenance notifications.
97
98 VIM Southbound interface
99 ------------------------
100
101 Normalization of data collection models
102 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
103
104 * Type: 'missing'
105 * Description
106
107   + To-be
108
109     - A normalized data format needs to be created to cope with the many data
110       models from different monitoring solutions.
111
112   + As-is
113
114     - Data can be collected from many places (e.g. Zabbix, Nagios, Cacti,
115       Zenoss). Although each solution establishes its own data models, no common
116       data abstraction models exist in OpenStack.
117
118   + Gap
119
120     - Normalized data format does not exist.
121
122 OpenStack
123 ---------
124
125 Ceilometer
126 ^^^^^^^^^^
127
128 OpenStack offers a telemetry service, Ceilometer, for collecting measurements of
129 the utilization of physical and virtual resources [CEIL]_. Ceilometer can
130 collect a number of metrics across multiple OpenStack components and watch for
131 variations and trigger alarms based upon the collected data.
132
133 Scalability of fault aggregation
134 ________________________________
135
136 * Type: 'scalability issue'
137 * Description
138
139   + To-be
140
141     - Be able to scale to a large deployment, where thousands of monitoring
142       events per second need to be analyzed.
143
144   + As-is
145
146     - Performance issue when scaling to medium-sized deployments.
147
148   + Gap
149
150     - Ceilometer seems to be unsuitable for monitoring medium and large scale
151       NFVI deployments.
152
153 * Related blueprints
154
155   + Usage of Zabbix for fault aggregation [ZABB]_. Zabbix can support a much
156     higher number of fault events (up to 15 thousand events per second, but
157     obviously also has some upper bound:
158     http://blog.zabbix.com/scalable-zabbix-lessons-on-hitting-9400-nvps/2615/
159
160   + Decentralized/hierarchical deployment with multiple instances, where one
161     instance is only responsible for a small NFVI.
162
163 Monitoring of hardware and software
164 ___________________________________
165
166 * Type: 'missing (lack of functionality)'
167 * Description
168
169   + To-be
170
171     - OpenStack (as VIM) should monitor various hardware and software in NFVI to
172       handle faults on them by Ceilometer.
173     - OpenStack may have monitoring functionality in itself and can be
174       integrated with third party monitoring tools.
175     - OpenStack need to be able to detect the faults listed in Section 3.5.
176
177   + As-is
178
179     - For each deployment of OpenStack, an operator has responsibility to
180       configure monitoring tools with relevant scripts or plugins in order to
181       monitor hardware and software.
182     - OpenStack Ceilometer does not monitor hardware and software to capture
183       faults.
184
185    + Gap
186
187      - Ceilometer is not able to detect and handle all faults listed in Section
188        3.5.
189
190 * Related blueprints / workarounds
191
192   - Use other dedicated monitoring tools like Zabbix or Monasca
193
194 Nova
195 ^^^^
196
197 OpenStack Nova [NOVA]_ is a mature and widely known and used component in
198 OpenStack cloud deployments. It is the main part of an
199 "infrastructure-as-a-service" system providing a cloud computing fabric
200 controller, supporting a wide diversity of virtualization and container
201 technologies.
202
203 Nova has proven throughout these past years to be highly available and
204 fault-tolerant. Featuring its own API, it also provides a compatibility API with
205 Amazon EC2 APIs.
206
207 Correct states when compute host is down
208 ________________________________________
209
210 * Type: 'missing (lack of functionality)'
211 * Description
212
213   + To-be
214
215     - There needs to be API to change VM power_State in case host has failed.
216     - There needs to be API to change nova-compute state.
217     - There could be single API to change different VM states for all VMs
218       belonging to specific host.
219     - As external system monitoring the infra calls these APIs change can be
220       fast and reliable.
221     - Correlation actions can be faster and automated as states are reliable.
222     - User will be able to read states from OpenStack and trust they are
223       correct.
224
225   + As-is
226
227     - When a VM goes down due to a host HW, host OS or hypervisor failure,
228       nothing happens in OpenStack. The VMs of a crashed host/hypervisor are
229       reported to be live and OK through the OpenStack API.
230     - nova-compute state might change too slowly or the state is not reliable
231       if expecting also VMs to be down. This leads to ability to schedule VMs
232       to a failed host and slowness blocks evacuation.
233
234   + Gap
235
236     - OpenStack does not change its states fast and reliably enough.
237     - There is API missing to have external system to change states and to
238       trust the states are then reliable (external system has fenced failed
239       host).
240     - User cannot read all the states from OpenStack nor trust they are right.
241
242 * Related blueprints
243
244   + https://blueprints.launchpad.net/nova/+spec/mark-host-down
245   + https://blueprints.launchpad.net/python-novaclient/+spec/support-force-down-service
246
247 Evacuate VMs in Maintenance mode
248 ________________________________
249
250 * Type: 'missing'
251 * Description
252
253   + To-be
254
255     - When maintenance mode for a compute host is set, trigger VM evacuation to
256       available compute nodes before bringing the host down for maintenance.
257
258   + As-is
259
260     - If setting a compute node to a maintenance mode, OpenStack only schedules
261       evacuation of all VMs to available compute nodes if in-maintenance compute
262       node runs the XenAPI and VMware ESX hypervisors. Other hypervisors (e.g.
263       KVM) are not supported and, hence, guest VMs will likely stop running due
264       to maintenance actions administrator may perform (e.g. hardware upgrades,
265       OS updates).
266
267   + Gap
268
269     - Nova libvirt hypervisor driver does not implement automatic guest VMs
270       evacuation when compute nodes are set to maintenance mode (``$ nova
271       host-update --maintenance enable <hostname>``).
272
273 Monasca
274 ^^^^^^^
275
276 Monasca is an open-source monitoring-as-a-service (MONaaS) solution that
277 integrates with OpenStack. Even though it is still in its early days, it is the
278 interest of the community that the platform be multi-tenant, highly scalable,
279 performant and fault-tolerant. It provides a streaming alarm engine, a
280 notification engine, and a northbound REST API users can use to interact with
281 Monasca. Hundreds of thousands of metrics per second can be processed
282 [MONA]_.
283
284 Anomaly detection
285 _________________
286
287
288 * Type: 'missing (lack of functionality)'
289 * Description
290
291   + To-be
292
293     - Detect the failure and perform a root cause analysis to filter out other
294       alarms that may be triggered due to their cascading relation.
295
296   + As-is
297
298     - A mechanism to detect root causes of failures is not available.
299
300   + Gap
301
302     - Certain failures can trigger many alarms due to their dependency on the
303       underlying root cause of failure. Knowing the root cause can help filter
304       out unnecessary and overwhelming alarms.
305
306 * Related blueprints / workarounds
307
308   + Monasca as of now lacks this feature, although the community is aware and
309     working toward supporting it.
310
311 Sensor monitoring
312 _________________
313
314 * Type: 'missing (lack of functionality)'
315 * Description
316
317   + To-be
318
319     - It should support monitoring sensor data retrieval, for instance, from
320       IPMI.
321
322   + As-is
323
324     - Monasca does not monitor sensor data
325
326   + Gap
327
328     - Sensor monitoring is very important. It provides operators status
329       on the state of the physical infrastructure (e.g. temperature, fans).
330
331 * Related blueprints / workarounds
332
333   + Monasca can be configured to use third-party monitoring solutions (e.g.
334     Nagios, Cacti) for retrieving additional data.
335
336 Hardware monitoring tools
337 -------------------------
338
339 Zabbix
340 ^^^^^^
341
342 Zabbix is an open-source solution for monitoring availability and performance of
343 infrastructure components (i.e. servers and network devices), as well as
344 applications [ZABB]_. It can be customized for use with OpenStack. It is a
345 mature tool and has been proven to be able to scale to large systems with
346 100,000s of devices.
347
348 Delay in execution of actions
349 _____________________________
350
351
352 * Type: 'deficiency in performance'
353 * Description
354
355   + To-be
356
357     - After detecting a fault, the monitoring tool should immediately execute
358       the appropriate action, e.g. inform the manager through the NB I/F
359
360   + As-is
361
362     - A delay of around 10 seconds was measured in two independent testbed
363       deployments
364
365   + Gap
366
367     - Cause of the delay needs to be identified and fixed
368
369 ..
370  vim: set tabstop=4 expandtab textwidth=80: