Skip to main content

Command Palette

Search for a command to run...

[Arabic] How to write a Software Incident Post-Mortem?

Updated
2 min read
[Arabic] How to write a Software Incident Post-Mortem?
M

Head of Engineering @Thndr. Passionate about managing teams, growing leaders, and building products that matter. Husband. Father. Madridista. Opinions are my own.

ممكن تكون سمعت كلمة postmortem أو عدت عليك وأنت بتقرا حاجة متعلقة بالـSRE أو الـDevOps أو بالتعامل مع production issues - وهي باختصار معناها تسجيل وتحليل كل التفاصيل اللي حصلت وقت حدوث مشكلة على production environment وإتأثر بيها البيزنس أو مُستخدمي الخدمة اللي بتقدمها ..

سواء bug حصلت، deployment اتنفذت غلط، مشكلة performance أو data inconsistency أو أي مشكلة تانية .. الـpostmortem document ده بنكتب فيه تفاصيل عن المشكلة علشان الـstakeholders وباقي التيم اللي ماشتغلش على الحلول يقدر يقراها وياخدوا بالهم من أسبابها أو يفهموا الحلول ..

تفاصيل زي: وقت حدوث المشكلة، مين اكتشفها؟ التيم ولا جالنا شكاوي من اليوزرز، المشكلة فضلت موجودة قد ايه، الـimpact بتاعها على البيزنس، خسرنا data؟ مين اللي حل المشكلة وأيه الـservices اللي احتاجت تغيير، الـtimeline بتاع كل حاجة بدايةً من اكتشاف المشكلة لحد ما الحل يبقى deployed..

بعدها نكتب تحليل لسبب حدوث المشكلة.. ممكن كود كان بيتعامل على ان حجم الداتا مش كبير، deployment كانت معتمدة على service بس محدش عملها deploy وقتها .. وبنكتب action items او الحاجات اللي محتاجين نعملها علشان نمنع تكرار المشكلة، مثلاً تبقى حجم الداتا على staging مشابه للـproduction

الـdocument ده المفروض يكون blameless ومش غرضه توجيه اللوم لأشخاص بعينها، ولكنه وسيلة علشان نفهم تفاصيل المشكلة ونتعلم منها .. كمان يتعمله review ونقدر نبعته لأي حد من الـstakeholders يفهمه فا لازم معظم الكلام يكون مفهوم ومش تكنيكال وبس غير في أجزاء معينة إنما الباقي واضح..

مين اللي بيكتبه؟ أي حد شارك في حل المشكلة او متابعتها المفروض يحط الـactions اللي عملها ولازم يكون فيه incident commander بيتأكد ان الكلام منطقي .. دي مقالات فيها شرح أكتر للموضوع مع أمثلة ظريفة من google ومن datadog:

https://www.datadoghq.com/blog/incident-response-with-datadog/

https://sre.google/sre-book/postmortem-culture/

💡 تقدروا تلاقوا تفاصيل ومناقشات أكتر حول الموضوع ده في الـthread ده على twitter، شكرًا ..

More from this blog

[Arabic] Productivity and Performance Metrics that you should measure

ازاي تقيس انتاجيتك وكفائتك في الشغل حتى لو شركتك/الفريق/مديرك مش مهتمين انهم يوضحوا ده أو مش مهتمين يعرفوا؟ الأرقام اللي من نوع "كام ticket خلصتها في أسبوع" وغيرها من الأرقام المشتقة من مبادئ الـagile بيتم استخدامها بشكل غلط طيب ازاي أحدد انا باشتغل ...

Dec 23, 20234 min read49
[Arabic] Productivity and Performance Metrics that you should measure

[Arabic] How can good intentions to solve a problem cause bigger ones?

هاتكلم النهاردة عن The Cobra Effect, Parkinson's Law وحاجات تانية: في واحدة من الشركات اللي اشتغلت فيها، كانت فيه مشكلة كبيرة وهي إن معظم المشاريع اللي بنتفق اننا نسلمها في مواعيد محددة بتتأخر، وأسباب التأخير وقتها كانت متنوعة بين ضغط الشغل والوقت مش...

Sep 1, 20235 min read64
[Arabic] How can good intentions to solve a problem cause bigger ones?

[Arabic] Navigating the early days of a new Job: Mistakes to avoid and Details to pay attention to

من الغلطات المعروفة اللي بيقع فيها أي حد بيروح شغل جديد انه يكون مستعجل على انه يعمل impact/تأثير على الجزء اللي بيشتغل فيه.. ده مش غلط في المطلق ولكن ممكن يسبب شوية مشاكل تحصل بدري ومن غير ما ياخد باله ولا يبقى مستعد، هاتكلم على كام نقطة شوفتها بتحص...

Aug 18, 20234 min read146
[Arabic] Navigating the early days of a new Job: Mistakes to avoid and Details to pay attention to

Hani's Blog

24 posts

Software Engineering Leader. Passionate about managing teams, growing other leaders, and building products that matter. Husband. Father. Madridista.