Kernel
04.Ноябрь.2020 15:19:41
#1
Приветствую!
В последнее время участились случаи выпадения системы в BSOD с кодом WHEA_UNCORRECTABLE_ERROR.
Причем обычно это случается при просмотре веб-страниц или при запуске прог, написанных на Java. В моем случае - это Ghidra.
Система Win10 x64
CPU: Intel i9-7940x 3.1 GHz
RAM: 64 Gb
GPU: GTX 1070
Блок питания Corsair RM1000i 1000W
Жесткий диск проверял, сбойных секторов нет.
Температура проца 33-35 C.
Есть идеи, в чем проблема?
AlexP
(Alex P.)
04.Ноябрь.2020 15:39:25
#2
При непонятных бсодах обычно советуется проверить память memtest’ом.
Или может быть какой-нибудь недавно обновленный драйвер виноват.
Kernel
04.Ноябрь.2020 15:41:32
#3
Память тоже проверял - все ок.
Сегодня поставил новый SDD и на него поставил чистую систему. Снова упала.
AlexP
(Alex P.)
04.Ноябрь.2020 15:54:08
#4
Дело может быть и в каком-нибудь недавнем обновлении винды.
А BlueScreenView не показывает ничего интересного о том, что вызывает бсод?
Kernel
04.Ноябрь.2020 16:07:06
#5
Нет, ничего интересного. Файл дампа оказался поврежденным.
LiAN
04.Ноябрь.2020 17:04:56
#6
Может размер файла дампа слишком мал?
Можно пробовать совсем его отключить.
Какой шестнадцатеричный код ошибки, не обратили внимание?
AlexP
(Alex P.)
04.Ноябрь.2020 17:07:03
#7
Так 64 ГБ и без него должно хватать )
LiAN
04.Ноябрь.2020 17:10:03
#8
Да мало ли как систему глючит…
Может видит большой объем ОЗУ и не обращая внимания малый размер дампа пихает часть данных из ОЗУ. Данные не влезли, бац ошибка при следующем обращении к ним.
P. S.
Первым делом бы попробовал бы следующее:
В настройках электропитания переназначил бы кнопки, Завершение работы по умолчанию переводит систему в гибернацию.
Указать кнопке Завершение работы - именно завершение работы.
Кнопке Сон - именно режим сна (вроде по умолчанию так и есть), точно не помню.
Если ноут, то по закрытию крышки - Гибернация (задействуются файл дампа и подкачки).
Далее установил бы фиксированный размер файла подкачки размером равным рекомендуемым системой, или вручную помножить размер ОЗУ на 1,5 = размер подкачки.
Дамп ядра установить Полный (максимальный) дамп
Понаблюдал бы пару дней за работой системы.
Если ошибка повторяется. Отключаем дамп ядра и указываем системе работать без файла подкачки (гибернация в таком режиме будет вызывать ошибки).
Снова наблюдаем за работой системы…
Kernel
04.Ноябрь.2020 17:44:53
#9
0x00000124 WHEA_UNCORRECABLE_ERROR
Это почти 100 ГБ будет
Вот тут не понял. Есть полный дамп, он будет равен объему ОЗУ + чуть оверхеда. А есть дамп памяти ядра, который только данные из kernel mode пишет.
Сейчас у меня стоит сохранение дампа памяти ядра. Но он вот повредился. Хотя места на диске было достаточно.
Ошибка стала возникать достаточно часто. Вчера, например, когда вкладки листал в браузере два раза упало.
Про отключение файла подкачки - попробую, спасибо.
LiAN
04.Ноябрь.2020 17:58:14
#10
Есть три режима:
без дампа;
малый дамп;
дамп ядра (его подразумевал как полный).
Как точно эти режимы в 10-ке именованы не помню.
Без подкачки нужно дамп делать малым или совсем отключать.
Kernel:
Это почти 100 ГБ будет
Если ресурс накопителя ограничен, можно указать:
исходный размер - 512 МБ
максимальный - тот что рекомендуется системой.
Будет динамично изменяться размер по мере необходимости…
0x00000124, там дальше в скобках еще ряд ошибок должно быть. По ним можно более детально анализировать последовательность отказов…
Попробуйте снять всю оперативу, лишние девайсы отключите. Может быть какая то планка битая?
Видяху снимите если есть встроенная.
LiAN:
0x00000124
Везде пишут что это проблема с железом. На матери все нормально?? Может там кто нибудь надулся?
Может какая нибудь запись есть в журнале ??
Софт пробовали какой нибудь?? АИДА например. там есть состояние температурных датчиков всей системы. Может где то перегрев??
Память достали?? попробуйте с одной планкой запустить и потестировать.
Может какой нагрузочный тест дать?? И посмотреть на температуру под нагрузкой?
AlexP
(Alex P.)
05.Ноябрь.2020 17:45:26
#14
Так падает же вроде не под ней )
Чтобы исключить проблемы с ОС/драйверами можно на линуксе посидеть )
Винду в виртуалке если очень нужна.
НУ вот если бы был какой нибудь профиль загрузки… ))
Ну я бы снял для начала все лишнее оборудование и оставил бы все в минимальной конфигурации.
Потом можно было бы с загрузить с какго нибудь ливсд запустить тест там.
Kernel
06.Ноябрь.2020 08:46:41
#16
Отключил подкачку.
Гидра перемалывает большие файлы. Пока полет нормальный.
Планки памяти пока не вынимал.
Если еще упадет, попробую с Линукса посидеть.
Обратил внимание, что иногда одно ядро греется больше остальных. Т.е. у всех по ~33 градуса, а у одного 40. Это нормально?
AlexP
(Alex P.)
06.Ноябрь.2020 09:21:47
#17
Да, наверно его использует какое-то однопоточное приложение в это время.
Kernel
08.Декабрь.2020 20:15:08
#18
После нескольких недель нормальной работы случился BSOD. Понятней ситуация не стала.
WHEA_UNCORRECTABLE_ERROR (124)
A fatal hardware error has occurred. Parameter 1 identifies the type of error
source that reported the error. Parameter 2 holds the address of the
WHEA_ERROR_RECORD structure that describes the error conditon.
Arguments:
Arg1: 0000000000000000, Machine Check Exception
Arg2: ffffe388aa591028, Address of the WHEA_ERROR_RECORD structure.
Arg3: 00000000b2000000, High order 32-bits of the MCi_STATUS value.
Arg4: 0000000000070005, Low order 32-bits of the MCi_STATUS value.
Debugging Details:
------------------
Page 105ef6f not present in the dump file. Type ".hh dbgerr004" for details
Page 105ef6f not present in the dump file. Type ".hh dbgerr004" for details
KEY_VALUES_STRING: 1
Key : Analysis.CPU.Sec
Value: 3
Key : Analysis.DebugAnalysisProvider.CPP
Value: Create: 8007007e on DEV-MAIN-PC
Key : Analysis.DebugData
Value: CreateObject
Key : Analysis.DebugModel
Value: CreateObject
Key : Analysis.Elapsed.Sec
Value: 33
Key : Analysis.Memory.CommitPeak.Mb
Value: 78
Key : Analysis.System
Value: CreateObject
BUGCHECK_CODE: 124
BUGCHECK_P1: 0
BUGCHECK_P2: ffffe388aa591028
BUGCHECK_P3: b2000000
BUGCHECK_P4: 70005
PROCESS_NAME: chrome.exe
STACK_TEXT:
ffffa081`ddc8d058 fffff803`787a4178 : 00000000`00000124 00000000`00000000 ffffe388`aa591028 00000000`b2000000 : nt!KeBugCheckEx
ffffa081`ddc8d060 fffff803`7c981920 : ffffe388`a6ce3690 00000000`00000000 ffffe388`aa591028 00000000`00000000 : hal!HalBugCheckSystem+0xd8
ffffa081`ddc8d0a0 fffff803`78b40062 : ffffe388`a6ce3690 ffffa081`ddc8d129 00000000`00000000 ffffe388`aa591028 : PSHED!PshedBugCheckSystem+0x10
ffffa081`ddc8d0d0 fffff803`787a5ad6 : ffffa081`ddc8d1f0 00000000`00000004 ffffe388`a6ce36e0 ffffe388`a6ce3690 : nt!WheaReportHwError+0x382
ffffa081`ddc8d190 fffff803`787a5f6a : 00000000`00000010 ffffe388`a6ce36e0 ffffa081`ddc8d348 ffffa081`ddc8d590 : hal!HalpMcaReportError+0x72
ffffa081`ddc8d2f0 fffff803`787a5e44 : ffffe388`a66e22c0 00000000`00000001 00000000`00000000 00000000`00000000 : hal!HalpMceHandlerCore+0xf2
ffffa081`ddc8d340 fffff803`787a60b0 : 00000000`0000001c 00000000`00000001 00000000`00000000 00000000`00000000 : hal!HalpMceHandler+0xe0
ffffa081`ddc8d380 fffff803`787a5158 : 00000000`00000000 ffffa081`ddc8d610 00000000`00000000 00000000`00000000 : hal!HalpMceHandlerWithRendezvous+0xd4
ffffa081`ddc8d3b0 fffff803`787a6337 : ffffe388`a66e22c0 00000000`00000000 00000000`00000000 00000000`00000000 : hal!HalpHandleMachineCheck+0x5c
ffffa081`ddc8d3e0 fffff803`78aa42e0 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : hal!HalHandleMcheck+0x37
ffffa081`ddc8d410 fffff803`789d2afa : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : nt!KiHandleMcheck+0x10
ffffa081`ddc8d440 fffff803`789d27af : 00000000`00000000 00000000`00000000 00007ff9`d889555c 00000000`00000000 : nt!KxMcheckAbort+0x7a
ffffa081`ddc8d580 00007ff9`d88910d1 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : nt!KiMcheckAbort+0x26f
0000001f`e8dfca80 00000000`00000000 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : 0x00007ff9`d88910d1
MODULE_NAME: GenuineIntel
IMAGE_NAME: GenuineIntel.sys
STACK_COMMAND: .thread ; .cxr ; kb
FAILURE_BUCKET_ID: 0x124_GenuineIntel_PROCESSOR_MAE_INTERNAL_PARITY
OS_VERSION: 10.0.18362.1
BUILDLAB_STR: 19h1_release
OSPLATFORM_TYPE: x64
OSNAME: Windows 10
FAILURE_ID_HASH: {ad18667d-e4af-4a49-4062-3121e823755f}
Followup: MachineOwner
LiAN
09.Декабрь.2020 10:52:38
#19
Kernel
09.Декабрь.2020 15:54:55
#20
Спасибо, проанализировал структуру как по ссылке выше.
ErrorType: Micro-Architectural Error
Error: Internal parity (Proc 4 Bank 0)
===============================================================================
Common Platform Error Record @ ffffe388aa591028
-------------------------------------------------------------------------------
Record Id : 01d6c93060920e0f
Severity : Fatal (1)
Length : 872
Creator : Microsoft
Notify Type : Machine Check Exception
Timestamp : 12/3/2020 17:59:34 (UTC)
Flags : 0x00000000
===============================================================================
Section 0 : Processor Generic
-------------------------------------------------------------------------------
Descriptor @ ffffe388aa5910a8
Section @ ffffe388aa591180
Offset : 344
Length : 192
Flags : 0x00000001 Primary
Severity : Fatal
Proc. Type : x86/x64
Instr. Set : x64
Error Type : Micro-Architectural Error
Flags : 0x00
CPU Version : 0x0000000000050654
Processor ID : 0x0000000000000004
===============================================================================
Section 1 : x86/x64 Processor Specific
-------------------------------------------------------------------------------
Descriptor @ ffffe388aa5910f0
Section @ ffffe388aa591240
Offset : 536
Length : 64
Flags : 0x00000000
Severity : Fatal
Local APIC Id : 0x0000000000000004
CPU Id : 54...... - bf ......
00 00 00 00 00 00 00 00 - 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 - 00 00 00 00 00 00 00 00
===============================================================================
Section 2 : x86/x64 MCA
-------------------------------------------------------------------------------
Descriptor @ ffffe388aa591138
Section @ ffffe388aa591280
Offset : 600
Length : 272
Flags : 0x00000000
Severity : Fatal
Error : Internal parity (Proc 4 Bank 0)
Status : 0xb200000000070005