<div dir="ltr"><br><div>Hi all,</div><div><br></div><div>We have been discussing open cloud monitoring as part of the</div><div>weekly meetings and associated with the NERC (New England </div><div>Research Cloud) Architecture (<a href="https://gitlab.com/open-infrastructure-labs/nerc-architecture">Gitlab</a>).</div><div><br></div><div>We are looking to develop the user stories and requirements over</div><div>the next few weeks. Note that the discussion is general and</div><div>not limited to NERC specifics, any stories or requirements relevant to</div><div>open source cloud monitoring are fair game.</div><div><br></div><div>We thought that using an email thread could be beneficial for people</div><div>provide their input and ideas and to discuss and even work out user</div><div>stories and requirements.</div><div><br></div><div>Below are some general roles and areas of monitoring that may be needed. It's</div><div>only a starter not by any means meant to be complete and immutable.</div><div>Consider it food for thought and discussion.</div><div><br></div><div><br></div><div>Cloud owner </div><div><ul><li>Need to monitor cloud usage for accounting, charging</li><li>Need to monitor historical usage for planning for future expansion</li><li>Needs visibility to issues (problem reports) generated by users</li><li>Logging information that may point to emerging hardware issues</li><li>Security and compliance information</li><li>Revision status of hardware and software</li></ul></div><div>Cloud Operators / Administrators and operator tools (such as AIOPs)</div><div><ul><li>Dashboard view of the cloud, showing utilization, workloads, issues</li><li>Low level events that will need immediate operator attention (hardware / power failure, platform crashes, network outages)</li><li>Alerts generated from ongoing operations via events, metrics and logging<br></li><li>View of current health of cloud hardware (cpu load, memory usage / swapping, errors)</li><li>View of performance of various aspects (memory consumption, load averages, swapping, networking, storage)</li></ul><div>Cloud users</div></div><div><ul><li>View of their workloads</li><li>View of overall cloud health and capacity</li></ul></div><div><br></div><div>Hope this helps get the conversation going!</div><div><br></div><div>cheers,</div><div> Bill</div><div><br></div></div>