Dear Pak Ammar dan Team

Setelah berkodinasi dengan Principal dan melalukan Analisa kami dapat memberikan kesimpulan sebagai berikut:

  1. Untuk concern mengenai "task:jbd2/sda1-8 state:D" dan  "jbd2_journal_commit_transaction" kami bisa sampaikan tidak terkait dengan issue sebelumnya pada VM yang sama (jika ada).
  2. Masih untuk concern mengenai "task:jbd2/sda1-8 state:D" dan case tersebut hari ini, kami cukup confident ini tidak related dengan issue customer lain.
  3. Kami juga sempat mengecek beberap VM Service Level Indicator kami baik yang running di host yang sama ataupun berbeda dan di cluster yang sama, tidak di temukan Issue sejenis.
  4. Setelah menghubungi Principal dan Berkordinasi, tidak di temukan issue di Cluster/ Host tempat VM dengan  IP 103.175.218.159, berikut beberapa area yang kami cek:
    1. Network: CRC Error, SignalDrop, PacketDrop, bufferOverrun, DiscardPacket, KernelQueue, RecieveRingBuffer, TransmitRingBuffer, TXQueue, Interface statistic pada host dan Switch
    2. Host: Log pada system, kernel dan services yang related serta CPU/RAM/etc Utilization
    3. Storage: Semua hal yang berkaitan dengan Status Placement Group, status Disk, Status Cluster dll
  5. Analisa dari kami dan Principal adalah sebagai berikut mengenai "task jbd2/sda1-8:377 blocked for more than 30 seconds." pada jam 17:26
    1. Terjadi process hanging/deadlocking/blocked di VM tersebut karena berbarengan dengan process Burn-Test / Stress-Test CPU dan RAM
    2. Suspect kami ada pada CFQ scheduler dan RT scheduler class di kondisi CPU dan RAM yang utilisasi nya sangat tinggi, sehingga "jbd2_journal_commit_transaction" gagal dilakukan, dari Call trace nya kami jg belum menemukan warn_slowpath_* 
    3. Menurut Principal kami hal ini sering terjadi pada sistem dengan kondisi Heavy Load, mohon untuk menstop Stress-Test CPU dan RAM pada saat melakukan FIO
  6. Saran dari kami:
    1. Mohon mengaktifkan Kernel Crash Dump dan sharing vmcore nya kepada kami, sehingga pada saat terjadi lagi kami akan berusaha melakukan analisai berdasarkan vmcore tersebut.
    2. Mohon sertakan juga output sosreport agar dapat digunakan sebagai cross reference issue yang ada
    3. Jika berkenan, mohon untuk melakukan Update kernel ke latest version just in case concern pada email ini related dengan issue pada email ini.
  7. Sebagai informasi tambahan, pada kondisi normal load sebagai mestinya (Running apps dll), seharusnya hal ini jarang terjadi, jika memang terjadi maka kemungkinan besar ada di capacity Planning, terutama pada IOPS. Untuk pilihan IOPS 5k - 15k ada pada product Neo High Performance Storage di layanan Neo Virtual Compute
  8. Kami masih terus menggali kemungkinan issue lain yang berhubungan dengan issue yang dihadapi hari ini, dan jika ada temuan lebih lanjut kami akan update.
  9. Di satu sisi sebagaimana yang sempat saya sampaikan, kami menemukan beberapa point suspect pada cluster lain yang akan kami investigasi lebih jauh, namun dapat dipastikan suspect issue pada cluster tersebut tidak berhugungan dengan concern yang di sampaikan  pada email ini.
  10. Kami juga berusaha mempelajari lebih line pada Call Trace satu persatu untuk mencari kemungkinan ada nya  bugs namun sejauh ini belum menemukan yang benar2 relate.
  11. Kami terbuka jika ada masukan/mengetahui sesuatu yang mungkin Pak Ammar dan Team ingin sampaikan, jika ada clue/masukan jangan sungkan untuk disampaikan di email ini ya.


Terim Kasih


The information contained in this electronic message and any attachments to this message are intended for the exclusive use of the addressee(s) and may contain proprietary, confidential or privileged information. If you are not the intended recipient, you should not disseminate, distribute or copy this e-mail. Please notify the sender immediately and destroy all copies of this message and any attachments.