Hey! Ich weiß nicht, ob ich hier richtig bin, aber ich brauche unbedingt Feddit’s Schwarmintelligenz. Ich bin mit meinem Latein am Ende und komme ums verrecken nicht mehr weiter.

Ich habe folgendes Problem:

  • Mein Desktop-PC friert mir konstant ein und schmiert ab.
  • Und damit meine ich wirklich KONSTANT. Ich darf ihn teilweise mehrmals täglich zwangsneustarten (Power-Knopf 10s), weil ich es nicht mal mehr über das Menü machen kann.
  • Ich bekomme andauernd den Popup “App xy reagiert nicht, beenden?”, teils auch bei banalen Systemapps. Wenn ich auf Beenden klicke, passiert nichts, auch nicht im Taskmanager.
  • Dabei ist es so, dass simple Programme schon häufig abkacken, komplexere (Bildbearbeitung, manche Spiele, etc.) umso häufiger.
  • Liegt bestimmt am System? Denkste! Mein Laptop hatte zeitweise die exakt selbe Konfiguration, und der läuft seit Jahren komplett problemfrei. Das ist nur dieser eine PC.

Nun, was habe ich bisher alles probiert? + relevante Hintergrundinfos

  • Erstmal hab ich mich natürlich sehr sehr ausgiebig selbst informiert. GPT (genauer gesagt Huggingface mit gekoppelter Websuche) war dabei eine riesen Hilfe.
  • Das Problem besteht schon, seit dem ich die blöde Kiste habe, also ca. 1 Jahr. Ich hab ihn mir damals selbst zusammengebaut, teils aus Komponenten meines alten PCs, teils neuen. Ich gehe aber eigentlich eher nicht davon aus, dass ich was grob falsch gemacht habe. Dazu später.

Softwareprobleme kann ich (fast) ausschließen.

  • Einerseits, siehe oben, waren die Konfigurationen die selben. Ich hatte bei beiden ca. 3 Monate lang Fedora Workstation, dazwischen unzählige andere Distros (OpenSuse Tumbleweed, Debian, Pop!OS, etc., selten länger als einen Monat) nur auf dem PC, und jetzt eine Zeit lang Fedora Atomic (Silverblue/ Kinoite/ Bazzite), welches imagebasierte Distros sind. Und tatsächlich sind die nochmal ein Stück weit problemärmer als die normalen Linux-Distros.
  • Ich habe damals schon einen Feddit-Post gemacht, bei dem ich dachte, dass das Problem wegen meiner eigenen Dummheit in Bezug auf “Ich schrotte meinen Install” entstanden ist.
    Hier der Link: https://feddit.de/post/3130750
    Hat das Problem mit der Stabilität aber leider auch nicht nennenswert behoben, außer, dass ich nicht jede zweite Woche neuinstallieren muss.
  • Seltsamerweise funktionieren die Rollbacks aber auch nur teilweise.
    • Beim KDE-Spin war es besonders auffällig. Da hatte ich bei fast jedem Boot einen schwarzen Bildschirm und bin dann im Rescue Mode gelandet, bei dem ich aber nichts machen konnte, nicht mal tippen, Logs auslesen o.ä., sehr seltsam. Normalerweise kann man damit ja ein zerschossenes System wiederherstellen, aber nö, nix da.
    • Ich hatte in meiner Liste aber immer ein (von 5) Images, das funktioniert hat. Sobald die ausgetauscht wurden, z.B. nach einem Update oder Pin, haben andere Images manchmal wieder funktioniert. Dieses eine bestimmte Image hat dann aber auch reproduzierbar gebootet.
    • Dass die Images mal so, mal so funktionieren macht überhaupt keinen Sinn.
  • KDE war insgesamt etwas anfälliger für Totalausfall-Freezes, während bei Gnome mehr Programme einfach beschlossen, jetzt Feierabend zu machen. (Wie gesagt, die 1:1 selbe Konfiguration auf meinem Laptop hat extrem zuverlässig funktioniert!)

Hardware

Inkompatible Komponenten:

  • Mit dem OS sollte alles wunderbar kompatibel sein. AMD GPU, ein leicht älteres und generisches ASUS-Mainboard (nicht die, die bei Linux Probleme machen, z.B. ROGs oder Laptops), und sonst auch nichts seltsames.
  • Untereinander sollte auch alles funktionieren. 2 gleiche RAM-Riegel, BIOS-Einstellungen alle fast Standard, nichts über- oder untertaktet, etc.

Stromversorgung:

  • In dem oben verlinktem Feddit-Thread hatten !u/superknet und !u/Atemu@lemmy.ml die Idee, dass es am Stromnetz liegen könnte. Sie waren auf dem richtigen Weg!
  • Tatsächlich war in der alten Wohnung immer wieder mal kurz das Licht weg oder der Monitor hat sich kurz verabschiedet.
  • Ich denke aber, durch das immutable System, sollte das kein Problem sein. Wenn beispielsweise ein Update unterbrochen wird, starte ich einfach von vorne und muss halt mit dem Image von gestern leben :) Mein “normales” System hätte es (und hat es auch) damit gebricked.
  • Jetzt habe ich aber eine stabile Versorgung und trotzdem funktionierts nicht richtig…

Festplatte:

  • Ich hab mir nen Live-USB geschnappt und mit sudo smartctl -a meinefestplatte meine NVMe gecheckt.
  • SMART hat keine Auffälligkeiten gezeigt, außer halt, dass das Gerät >300 Mal außerplanmäßig ausgeschalten wurde :D

CPU:

  • Hab mit mit dem selben Live-USB per GTKStressTesting fast eine Stunde lang verschiedene Benchmarks gemacht, darunter auch mit Testalgorithmen, die besonders fehleranfällig sind.
  • Das System ist kein einziges Mal abgeschmiert/ gebugged, obwohl alle Kerne komplett ausgereizt waren. Im Gegenteil, es war minimal langsamer, aber hat butterweich funktioniert.

RAM:

  • Hab mir einen USB mit MemTest86+ gemacht und diesen für 3 Stunden (2 komplette Zyklen mit allen möglichen Algorithmen) laufen lassen.
  • Null Auffälligkeiten oder Fehlermeldungen

PSU:

  • Hab ich auch schon ausgewechselt.
  • Die jetzige brummt/ fiept ganz leicht, wenn das Gerät ausgeschalten ist, aber ich denke, dass das nur das latente Spulenfiepen der Kondensatoren oder so ist. Sobald der Strom weg ist, passt alles.
  • Die PSU ist auch leistungsstark genug (850W), auch für die große Grafikkarte (AMD 6800XT). Unter Volllast, z.B. wenn ich lokales Stable-Diffusion laufen lasse, wird der Raum damit zwar krass geheizt, aber der PC läuft weiter als wäre nichts gewesen.

Temperatur:

  • Hab ich während den Benchmarks und KI-Kram auch durchgehend gecheckt. CPU und GPU wurden nie heißer als 75-80°C max, Laufwerke ebenfalls nicht, Leitfähigkeitspaste hab ich auch erst vor nem halben Jahr erneuert, etc.

Weitere Lösungsideen?

  • Neuinstallation: vielleicht ist durch die instabile Stromversorgung in der alten Wohnung damals ein Schreibfehler in der Festplatte aufgetreten. Da könnte ich das OS (mal wieder) neu installieren. Wäre mega nervig… aber wenn ihr sagt, dass es was bringen könnte, nagut.
  • Neuinstallation nach Check: der SMART-Checkt könnte fehleranfällig sein. Es gibt auch destruktive Methoden, aber danach wäre die NVMe platt.
  • Neue Komponenten: ich könnte das Mainboard, samt CPU und RAM, ersetzen. ^Wenn ich Geld hätte.^
  • …?

Ich weiß wirklich nicht mehr weiter… was soll ich tun?


Edit 1

  • Danke für eure unzähligen Kommentare! Die waren enorm hilfreich!
  • Da der Live-USB und die Benchmarks unauffällig und stabil waren, besteht die Vermutung, dass es an der Festplatte liegt. Deswegen teste ich erstmal meine eingebaute Zweit-NVMe mit einem neu installiertem System.
  • Wenn das nichts bringt, schau ich wegen dem Mainboard/ BIOS und update das mal
  • Und dann schau ich weiter.
  • ChojinDSL@discuss.tchncs.de
    link
    fedilink
    arrow-up
    14
    ·
    10 months ago

    Nimm einen zweiten PC, z.b. Laptop und log dich per SSH ein und folge dem syslog, also z.b. mit “journalctl -f” Und lass das so laufen und benutze deinen Deskop PC bis er sich wieder aufhängt. Mit etwas Glück bekommst du vielleicht irgendeine interessante Fehlernachricht zurück. Ausserdem wäre interessant ob du bei einem aufhänger, dich noch per SSH verbinden kannst zu der Kiste oder nicht. Wenn z.b. per ssh noch alles geht, aber der Desktop nicht reagiert dann grenzt es das ganze schonmal etwas ein.

    Wenn du meinst dein Laptop hat die exact gleiche Konfiguration, was heisst das genau? Dein desktop hat sicherlich keine mobile CPU oder GPU, das heisst da sind schonmal unterschiede.

    Tritt das Problem immer erst nach einer gewissen Zeit auf? Oder manchmal schon direkt nach dem start?

    Die tatsache das nachdem du einen KDE spin booten wolltest, nur ein schwarzer Bildschirm kam, lässt mich auf die GPU schliessen. Falls die Fehlerhaft ist, kann es ziemlich schwierig sein das zu debuggen, vor allem wen der Fehler nicht konstant reproduzierbar ist.

    Also strom probleme können ihre spuren hinterlassen. Da muss es nicht heissen das das OS davon betroffen ist, sonder im schlimmsten Fall die Hardware. Das genau zu identifizieren kann z.b. schwierig sein. (Instabile Lötstelle, defekter Resistor, etc…)

    OS Neuinstallieren kann man machen, aber ich würde eher mal verschiedene LiveUSB distros ausprobieren und die mal nen Tag lang laufen lassen und sehen ob das Problem auch da auftritt.

    Bleibt die Kiste laufen, wenn du sie nicht benutzt? Also im idle Betrieb, oder hängt es sich da auch auf?

    Mit motherboards ist das so ne Sache. Die können manchmal ziemlich zickig sein, je nach Hersteller und Firmware version. Egal ob übertaktet oder nicht, oder auch wenn alles auf default settings ist. Von BIOS bugs mal ganz zu schweigen. Ein guter Ansatz ist hier, das man z.b. alle strom sparsachen abstellt. Sowohl im BIOS als auch in Linux selber. Bluetooth, WLan und Netzwerk chips können da manchmal auch zickig sein. Ansonsten kannste probieren alle unnötige onboard hardware im bios zu deaktivieren. Also z.b. wlan, bluetooth, etc…

    SSDs und NVMEs funktionieren oft einwandfrei bis sie es plötzlich nicht mehr tun. Da hilft auch S.M.A.R.T. nicht viel weiter, weil man oft keine vorwarnung bekommt. Bei rotierenden Platten schon eher.

    Ich nehme mal an deine CPU und Motherboard hat keine onboard grafikkarte? Eventuell wäre das auch eine Möglichkeit. Praktisch die dedizierte GPU auszubauen, und nur mit der lahmen onboard karte zu testen.

    Was du auch probieren kannst ist linux auf der maschine im reinen konsolen modus zu betreiben und dann z.b. einen vnc server darauf starten und vom laptop aus gewisse graphische desktop applikation auszuprobieren. Dann kannst du z.b. die GPU als fehlerquelle ausschliessen.

    Im Prinzip ist das grösste Problem hier, alle möglichen unbekannten Variablen. “Liegts vielleicht an …?” Gehe systematisch vor, damit du eins nach dem anderen ausschliessen kannst. Eventuell auch protokollieren unter welchen Umständen das Problem auftritt. Wie lang lief die Kiste etwa, was hatte ich grad alles offen, usw…

    • Guenther_Amanita@feddit.deOP
      link
      fedilink
      arrow-up
      4
      ·
      10 months ago

      Im Prinzip ist das grösste Problem hier, alle möglichen unbekannten Variablen. “Liegts vielleicht an …?” Gehe systematisch vor, damit du eins nach dem anderen ausschliessen kannst.

      Hab ich eigentlich versucht. Wie gesagt, Software kann ich tendenziell ausschließen.
      Häufig, in dem Beispiel Gnome vs. KDE, äußern sich die selben Probleme nur in anderen Symptomen, bspw. dadurch, wie der Window Manager/ Compositor gebaut wurde.

      Nimm einen zweiten PC, z.b. Laptop und log dich per SSH ein und folge dem syslog, also z.b. mit “journalctl -f” Und lass das so laufen und benutze deinen Deskop PC bis er sich wieder aufhängt. Mit etwas Glück bekommst du vielleicht irgendeine interessante Fehlernachricht zurück. Ausserdem wäre interessant ob du bei einem aufhänger, dich noch per SSH verbinden kannst zu der Kiste oder nicht. Wenn z.b. per ssh noch alles geht, aber der Desktop nicht reagiert dann grenzt es das ganze schonmal etwas ein.

      Gute Idee, probier ich mal.

      Wenn du meinst dein Laptop hat die exact gleiche Konfiguration, was heisst das genau? Dein desktop hat sicherlich keine mobile CPU oder GPU, das heisst da sind schonmal unterschiede.

      Softwareseitig, das selbe Image. Durch die Immutability ist es das selbe reproduzierbare System.

      Tritt das Problem immer erst nach einer gewissen Zeit auf? Oder manchmal schon direkt nach dem start?

      Auch direkt beim Start

      aber ich würde eher mal verschiedene LiveUSB distros ausprobieren und die mal nen Tag lang laufen lassen und sehen ob das Problem auch da auftritt.

      Hab ich für paar Stunden gemacht, hab ich auch so geschrieben. Genauer gesagt nen Mint Live-USB mit GTKStresstest für ne Stunde, sowie einen USB mit MemTest86+.

      Bleibt die Kiste laufen, wenn du sie nicht benutzt? Also im idle Betrieb, oder hängt es sich da auch auf?

      Nur, wenn ich sie aktiv benutze, z.B. im Software-Center stöbern.

      Ich nehme mal an deine CPU und Motherboard hat keine onboard grafikkarte? Eventuell wäre das auch eine Möglichkeit. Praktisch die dedizierte GPU auszubauen, und nur mit der lahmen onboard karte zu testen.

      Tatsächlich hat sie das :D Wird getestet

      Danke für die tollen Vorschläge!

      • Flipper@feddit.de
        link
        fedilink
        arrow-up
        2
        ·
        10 months ago

        Noch besser ist es wenn du dich direkt auf die serielle Schnittstelle hängst. Dann bekommst du sogar den Kerneldump mit in dem genau steht warum sich der Kernel verabschiedet hat.

  • AnAngryAlpaca@feddit.de
    link
    fedilink
    arrow-up
    7
    ·
    10 months ago

    Hast du schon alle Hardware bis aufs nötigste entfernt, und schrittweise wieder eingebaut?

    Ist Monitor, USB Hub, Router usw. korrekt geerdet, oder haben die Geräte untereinander vielleicht Spannungsdifferenz, der dann über Masse zwischen HDMI, Netzwerk oder USB Kabel anliegt?

  • AAA@feddit.de
    link
    fedilink
    arrow-up
    7
    ·
    edit-2
    10 months ago

    Memtest solltest du definitiv länger als 3 Stunden laufen lassen. Bits sind nur Nullen und Einsen. Selbst ein kaputtes Bit zeigt in 50% der Fälle den richtigen Wert an.

    Winzige Stromunterbrechungen würden auch zum Fehlerbild passen. Aber dagegen spricht, dass es nicht auftritt wenn du die Benchmarks laufen lässt.

    • Guenther_Amanita@feddit.deOP
      link
      fedilink
      arrow-up
      3
      ·
      10 months ago

      Hmm… Okay, kann ich wiederholen.

      Ich hatte es zwar 2-3 Stunden laufen und laut Berichten reicht ein Durchgang, da da ja unzählige verschiedene Tests durchrattern.

      Laut Quelle Internet ™ reichen 2 aus, um auf Nummer sicher zu gehen. Wie viele Wiederholungen bräuchte ich deiner Meinung nach?

      • AAA@feddit.de
        link
        fedilink
        arrow-up
        2
        ·
        10 months ago

        Möglicherweise ist mein Wissen überholt. “Früher” als ich mich sowas noch regelmäßiger beschäftigt habe hat man das so ne Nacht über laufen lassen. Also so 8h.

  • lolonaut@feddit.de
    link
    fedilink
    arrow-up
    6
    ·
    10 months ago

    AMD hatte lange Zeit Probleme mit den Powerstates, evtl liegt es da dran. Auf meinem alten Zen1 Rechner hatte ich das auch ständig, ohne es jemals vollständig wegbekommen zu haben. Allerdings trat es auf Live-Systemen bei mir auch nie auf. Ich vermute dass Live-Systeme mit robusteren Bootoptionen arbeiten, idk.

    Also ggf die Firmware des MoBos updaten, falls möglich, ggf. Powersave Features im BIOS ausmachen und checken, ob es besser wird.

  • Gequantelt@feddit.de
    link
    fedilink
    Deutsch
    arrow-up
    6
    ·
    10 months ago

    Ich habe tatsächlich ein ähnliches Problem. Bei mir freezed der PC auch sporadisch und muss dann via Power-Knopf nuegestartet werden. Momentan geht aber alles einwandfrei. Was bei mir manchmal den Zustand bessert (vllt auch nur Placebo) ist ein Wechsel des Grafiktreibers für die Grafikkarte. Ich weiß aber grad nicht, ob Nouveau oder der properitäre NVidia Treiber bei mir mehr Probleme gemacht hat. Bei AMD müsste das ja analog gehen; auch wenn die eig wesentlich verträglicher mit Linux sind

  • Besen@feddit.de
    link
    fedilink
    arrow-up
    6
    ·
    edit-2
    10 months ago

    Mit welcher Frequenz arbeitet Memtest? Ich weiß nicht genau wie sich das Programm verhält. Wenn du mit der Standardfrequenz testest, aber deine Intel CPU mit XMP den RAM automatisch übertaktet, kannst du Probleme im Betrieb bekommen. Du kannst XMP im Bios abschalten, wenn dein Motherboard XMP unterstützt. Du kannst auch versuchen die Geschwindigkeit des RAMs weiter zu reduzieren, dann läuft er auch stabiler. Es ist zwar unwahrscheinlich, aber vielleicht hast du bei hohen Temperaturen im Betrieb eine Instabilität, die bei niedrigerer Taktung verschwindet.

    Hardware RAM Probleme können sich manchmal nur in bestimmten Situationen zeigen. Wenn Memtest läuft und der Computer relativ kalt ist, läuft alles ohne Probleme. Wenn das System im Betrieb wärmer wird, verbiegt sich das Material und der RAM hat plötzlich schlechten Kontakt. Versuche zumindest den RAM neu zu stecken, wenn das nicht hilft, auch die CPU. Reinige die Kontakte am RAM-Riegel und an der CPU. Die Kontakte der CPU auf dem Motherboard solltest du aber nicht anfassen, die gehen schon beim näheren Hinsehen kaputt.

    Alles was am PCIe Bus hängt kann unvorhersehbare Probleme verursachen. Entferne alles, was du nicht unbedingt zum Booten brauchst, auch die GPU, wenn deine CPU eine Grafikeinheit hat. Steck auch alle anderen PCIe Geräte einmal ab und wieder an und reinige die Pins.

    Überprüfe auch, ob alle Stromversorgungsstecker wirklich vollständig eingesteckt sind. Ein Wackelkontakt könnte zu Spannungsschwankungen führen.

    • Guenther_Amanita@feddit.deOP
      link
      fedilink
      arrow-up
      3
      ·
      10 months ago

      XMP an vs. aus hab ich auch schon probiert - kein Unterschied.

      Der PC war beim Benchmark schon ziemlich warm (CPU 60-75°C für ne Stunde), deutlich mehr als er bei vielen Abstürzen ist. Mir kackt der PC teilweise schon kurz nach dem Anschalten ab, während er noch komplett kalt ist.

      Kontakte kann ich auch mal putzen und neu reinstecken, auch, wenn sie gestern, als ich gecheckt habe, komplett drin waren. Stromstecker auch.

      Hardwareminimierung (GPU und co. raus) war auch ein Vorschlag von jemand anderem, werde ich auch mal probieren.

      Danke!

  • despokd@feddit.de
    link
    fedilink
    arrow-up
    4
    ·
    11 months ago

    Ich erinnere mich dunkel, random Systemausfälle gehabt zu haben, als ich eine neue PSU angeschlossen hatte.

    Die Ursache war letztendlich, dass ich mehrere Festplatten an dasselbe SATA-Kabel (hat mehrere Stecker) angeschlossen hatte, darunter die fürs System.

    Nachdem die Platte ein eigenes hatte liefs wunderbar.

    • Guenther_Amanita@feddit.deOP
      link
      fedilink
      arrow-up
      1
      ·
      10 months ago

      Ich hab leider eine NVMe-Festplatte, keine mit SATA-Anschluss. Die ist direkt am MB angesteckt, daran sollte es also auch nicht liegen :/

  • bneu@feddit.de
    link
    fedilink
    arrow-up
    3
    ·
    11 months ago

    Es sieht so aus, als ob es ein Speicherproblem ist:

    • Booten von NVMe SSD --> Probleme
    • Booten von USB --> funktioniert

    Also mein erster Versuch wäre die NVMe SSD durch ein anderes Speichermedium zu ersetzen. Bevor du das tust, könntest du versuchen, die NVMe SSD erneut in den Slot einzusetzen, einen anderen Slot zu nehmen und die NVMe Kontakte auf Beschädigungen zu überprüfen.

    • Guenther_Amanita@feddit.deOP
      link
      fedilink
      Deutsch
      arrow-up
      2
      ·
      10 months ago

      Das Ding ist ja, ich hab eine zweite, kleinere NVMe bereits drin. Wenn ich mich recht erinnere, hatte ich mein OS damals auch mal ne Zeit lang drauf, und da hats genauso gespackt. Den Tipp mit raus- und reinbauen werd ich mal probieren. Schaden kanns ja nicht :)

      Aber wie ich in einer anderen Antwort schon geschreiben habe, werde ich mal mein OS (zuerst vielleicht Windows, dann eine Linux-Distro) auf die zweite Festplatte klatschen und schauen, wie es sich da dann verhalten wird. Danke für den Vorschlag! :)

  • elvith@feddit.de
    link
    fedilink
    arrow-up
    2
    ·
    11 months ago

    Mein defekter RAM war laut Memtest86 OK. Die Fehler hatte dann nur die Memory Diagnostics von Windows gefunden. Falls du da in irgendeiner Form Windows drauf hast, wäre das mal einen Versuch wert.

    • Guenther_Amanita@feddit.deOP
      link
      fedilink
      arrow-up
      3
      ·
      edit-2
      11 months ago

      Ich hab den Post bei !c/Computerhilfe@feddit.de gecrossposted, und da hat auch schon welche vorgeschlagen, ich solls mal mit Windows testen, nur als Sanity-Check.

      Wie finde ich die Memory-Diagnostics? Systemsteuerung Problembehandlung?

      Meinst du mit Memtest86 das mit dem “+” (FOSS) oder das proprietäre? Habe eigentlich gehört, dass Memtest quasi der Standard ist, um defekte RAMs auszuschließen.

      Aber danke für die Antwort! Werde ich testen!

      • elvith@feddit.de
        link
        fedilink
        arrow-up
        2
        ·
        edit-2
        10 months ago

        Ich hab das Memtest aus der erstbesten Linux-ISO genommen, die ich auf meinem Ventoy-Stick hatte.

        Unter Windows: Startmenü öffnen, Memory Diagnostics in die Suche tippen und starten. Dann macht er nen Reboot und testet. Nachteil: Das Tool zeigt während dem Test die gefundenen Fehler an, aber macht danach sofort nen Reboot. Das Ergebnis siehst du, wenn du davor sitzen bleibst. Alternativ kannst du nach dem neuen Reboot in Windows das Eventlog öffnen (Startmenü, Suche nach eventvwr) und dort den Eintrag suchen. Siehe Microsoft hier: http://hs.windows.microsoft.com/hhweb/content/m-en-us/p-6.2/id-4edd5f80-def2-4d32-965c-116d49fb9872/

        • Guenther_Amanita@feddit.deOP
          link
          fedilink
          arrow-up
          1
          ·
          10 months ago

          Ah, okay. Von dem, was ich gelesen habe, soll man lieber die Live-USB-Variante davon verwenden, da das Memtest-Tool in einem gebooteten, vollwertigem OS nicht so zuverlässig funktioniert. Wer anders hat aber gemeint, dass der Test in dem Umfang, wie ich ihn gemacht habe, mehr als aussagekräftig und zuverlässig ist. Wie siehst du das?

          • elvith@feddit.de
            link
            fedilink
            arrow-up
            1
            ·
            10 months ago

            Wenn du memtest im GRUB hast und von dort startest, sollte das Analog zum Live-USB-Boot sein, da das dann eh anstelle deines Linux-Kernels startet. Ich hab das bislang nie im laufenden System gestartet (geht das überhaupt?).

            Generell würde ich bei solchen Unregelmäßigkeiten empfehlen erst den normalen "Schnell"test zu machen und dann, wenn der nix findet, einen erweiterten mit möglichst vielen Prüfungen (und ggf. mehrere Wiederholungen). Der zweite ist halt intensiver und läuft auch viiieel länger (wenn bspw. die Probleme erst mit einer gewissen Betriebsdauer auftreten).

            • Guenther_Amanita@feddit.deOP
              link
              fedilink
              arrow-up
              1
              ·
              10 months ago

              Hab ich ja, siehe Post. 2x erweitert, insgesamt für knapp 2-3 Stunden. Beide vollständigen Tests sind ohne Fehler durchgelaufen.

    • Strider@lemmy.world
      link
      fedilink
      arrow-up
      3
      ·
      edit-2
      11 months ago

      Aus langer Erfahrung würde ich bei OPs Beschreibung auch auf inkompatibles /kaputtes RAM, slot oder schlimmstenfalls gar Mainboard tippen.

      Man könnte ramdrives erstellen und mit Inhalten füllen und prüfsummen vergleichen…

      • Atemu@lemmy.ml
        link
        fedilink
        arrow-up
        2
        ·
        edit-2
        10 months ago

        Man könnte ramdrives erstellen und mit Inhalten füllen und prüfsummen vergleichen…

        Das macht memtest effektiv; mit vielen verschiedenen Zugrif-Patterns.

        • Strider@lemmy.world
          link
          fedilink
          arrow-up
          2
          ·
          10 months ago

          Ja das ist schon klar, aber nur sehr kurzfristig. Da hier aber unterschiedliche Zeiträume genannt wurden könnte ich mir vorstellen dass die Ergebnisse abweichen je nach Zeitraum.

  • Hubi@feddit.de
    link
    fedilink
    arrow-up
    2
    ·
    11 months ago

    Live USB und Memtest haben also über Stunden ohne Probleme funktioniert? Dann kannst du den Fehler mit ziemlicher Sicherheit auf deine NVMe oder deine Installation eingrenzen. Ich hatte mal ein sehr ähnliches Phänomen, da war es letzten Ends auch die Festplatte obwohl SMART sagte, dass alles in Ordnung ist.

    • Guenther_Amanita@feddit.deOP
      link
      fedilink
      Deutsch
      arrow-up
      4
      ·
      10 months ago

      Sehr gut, danke! Das ist schon mal ein echt vielversprechender Anfang. Dann teste ich mal meine Zweit-NVMe, die schon im PC drinsteckt. OS draufklatschen und paar Tage intensiv testen. Und wenns genauso spinnt, liegt die Vermutung nahe, dass es daran auch nicht liegt. Wir werden sehen…

      Dem SMART traue ich eh nicht so, weiß auch nicht. Dem Memtest/ Denkaufgaben der Benchmarks schon eher. Mint ist vom USB aus so smooth gelaufen, das ist schon fast auffällig… Dann mach ich das mal und gebe euch Bescheid, was rausgekommen ist 👍

  • aaaaaaaaargh@feddit.de
    link
    fedilink
    Deutsch
    arrow-up
    2
    ·
    edit-2
    10 months ago

    Ich hatte ein ähnliches Problem. Lag an einer faulty NVME respektive irgendeiner banalen Inkompatibilität mit dem Controller auf dem Mainboard. Sobald die Festplattenlast etwas höher wurde, fror das System ein und war teils über mehrere Minuten nicht nutzbar. Das passierte auch bei banalen Dingen wie Steam-Updates.

    Hast du mal versucht, das System auf einer anderen Platte zu starten? SMART ist kein verlässlicher Indikator hier meiner Meinung nach.

    Lass mal eine Weile iotop laufen (sichtbar!) und check, welche Prozesse beim Freeze so aktiv sind. Vor ein paar Jahren hätte ich noch geraten, diesen nervigen Baloo file indexer auszuschalten, der mit KDE kommt, aber ich glaube, das Problem der hohen Last besonders bei SSDs haben sie inzwischen ganz gut im Griff.

    • Guenther_Amanita@feddit.deOP
      link
      fedilink
      arrow-up
      1
      ·
      10 months ago

      Hatte ich vor, danke! Ich werd mir jetzt mal testweise für ein paar Tage oder Wochen auf meiner alternativen NVMe im anderen Slot ne andere Distro (oder vielleicht sogar Windows?) installieren und mal schauen, was dabei rauskommt.

      • aaaaaaaaargh@feddit.de
        link
        fedilink
        Deutsch
        arrow-up
        1
        ·
        edit-2
        10 months ago

        Windows würde ich nur installieren, wenn dein Ziel ist, Windows zu nutzen. Ansonsten musst du dich wohl oder übel mit dem Problem so auseinandersetzen, dass du es lösen, nicht nur umgehen kannst.

        (ich erspare mir hier mal die allgemeinen Belehrungen darüber, wie unsinnig es ist, ohne konkreten Anwendungsfall heutzutage noch Windows zu nutzen und bitte dich nur, es nicht zur tun)

        • Guenther_Amanita@feddit.deOP
          link
          fedilink
          arrow-up
          1
          ·
          edit-2
          10 months ago

          Windows würde ich nur installieren, wenn dein Ziel ist, Windows zu nutzen. Ansonsten musst du dich wohl oder übel mit dem Problem so auseinandersetzen, dass du es lösen, nicht nur umgehen kannst.

          Mir gings eher darum, im Ausschlussverfahren zu testen, ob es vielleicht ein Kernel- oder Treiberproblem ist und z.B. das MB mit OSs außer Windows zickt. Kann man ja nie wissen…

          Ich wollte eh schon mal zum Testen die neue VanillaOS-Beta installieren und in einem Zeitraum von 2 Wochen den Devs Feedback geben. Mei, dann ist es halt jetzt Zeit dafür 🤷 Wenns da genauso herumspackt weiß ich, dass es nicht an der NVMe liegt.

          • aaaaaaaaargh@feddit.de
            link
            fedilink
            Deutsch
            arrow-up
            1
            ·
            edit-2
            10 months ago

            Verstehe ich, aber wenn du Linux nutzen willst und irgendwas falsch läuft, dann müsstest du es ja mit dem entsprechenden System herausfinden und lösen. Ich setze all dem aber voraus, dass es kein richtiger Hardwaredefekt ist, weil es meiner Einschätzung nach eher nach Firmware/Treiber bzw. Inkompatibilitäten zwischen Komponenten aussieht.

            Versuch doch mal, deinen Rechner eine Weile von einem Live System über USB laufen zu lassen. Tauchen die Probleme da auch auf?

            • Guenther_Amanita@feddit.deOP
              link
              fedilink
              arrow-up
              1
              ·
              10 months ago

              Ich hab langsam etwas den Überblick über die Threads verloren, falls ich das also schon erwähnt habe, sorry.

              Ich habe im Post bereits geschrieben, dass ich ne Zeit lang (~3 h) einen Live-USB mit Mint hab laufen lassen, da ich meine CPU mit verschiedenen Benchmarkalgorithmen stressgetestet habe.
              Einen Memtest hab ich auch per USB gemacht.

              Beide liefen komplett flüssig und fehlerfrei. Wie jemand anderes schon erwähnt hat, ist der Haupt-Fehlerkandidat momentan meine Festplatte, da SSDs und NVMes angeblich einfach so, ohne Fehlermeldung oder Warnung, den Geist aufgeben und das dann Probleme machen kann.

              Falls das Problem auf meiner anderen Festplatte auch bestehen bleibt, schau ich mir das MB an und aktualisiere meine BIOS-Treiber.
              Wenn das auch nichts bringt, dann zerlege ich den PC und schaue, ob es an bestimmten Hardwarekomponenten liegt.

              • aaaaaaaaargh@feddit.de
                link
                fedilink
                Deutsch
                arrow-up
                1
                ·
                10 months ago

                Ja, NVME ist definitiv ein heißer Kandidat, das denke ich wie gesagt auch. Wenn es von Live USB rennt, dann ist RAM und eigentlich auch jede andere Komponente ausgeschlossen.

                Ich hab es ja bereits erwähnt, ich hatte den gleichen Fehler und bei mir lag es nicht an einer kaputten, sondern einer schlechten NVME. Seitdem kaufe ich nur noch Pro Evos und hatte dieses Problem auf 15 Rechnern privat wie geschäftlich bisher nicht wieder.

  • gandalf_der_12te@feddit.de
    link
    fedilink
    arrow-up
    2
    ·
    edit-2
    10 months ago

    Möglicherweise liegt es wirklich an der Energie-Versorgung. Also wenn das System unter Volllast läuft, kollabiert es? Vielleicht ist es eine Kombination mehrerer Faktoren, die gleichzeitig auftreten, also: Schwankungen im Stromnetz, Volllast der Grafikkarte, Schreibspitze auf der Festplatte usw…

    EDIT: hast du schon versucht, den PC an einem anderen standort zu betreiben? Vielleicht ist dann das Problem weg …

    • Guenther_Amanita@feddit.deOP
      link
      fedilink
      arrow-up
      1
      ·
      10 months ago

      Also wenn das System unter Volllast läuft, kollabiert es?

      Nein. Manchmal bei minimalsten Aufgaben, z.B. Stöbern im Software Store, softes Fotobearbeiten, etc.

      Wenn ich zocke oder Stable Diffusion lokal nutze, kommt er zwar ins Schwitzen, aber läuft deswegen nicht krass schlechter oder instabiler.

      Vielleicht ist es eine Kombination mehrerer Faktoren, die gleichzeitig auftreten, also: Schwankungen im Stromnetz, Volllast der Grafikkarte, Schreibspitze auf der Festplatte usw… hast du schon versucht, den PC an einem anderen standort zu betreiben? Vielleicht ist dann das Problem weg …

      Nein, das ist es leider auch nicht. In meiner alten Wohnung hatte ich das besagte instabile Stromnetz, und jetzt seit paar Wochen bin ich umgezogen und das Problem mit den flackernden Lichtern und Co. gibt’s nicht mehr.
      Mein Nutzungsverhalten am PC hat sich auch nicht geändert.
      Trotzdem spackt er genauso herum.

      Daran liegts also auch nicht…

      • gandalf_der_12te@feddit.de
        link
        fedilink
        arrow-up
        1
        ·
        10 months ago

        Hast du schon versucht, ein minimales System drauf laufen zu lassen? Also z.b. ein Debian im Text-Only-Modus, nichtstun, einfach mal ne Nacht lang laufen lassen, und dann am nächsten Tag in die Systemprotokolle zu schauen? Die müssten ja, soweit ich weiß, möglichst alle besonderen Vorkommnisse verzeichnen. Vielleicht findest du ja darin einen Hinweis.?

        • Guenther_Amanita@feddit.deOP
          link
          fedilink
          arrow-up
          2
          ·
          10 months ago

          Du meinst, damit ich feststellen kann, ob die Fehler aus dem nichts, oder erst bei Leistung auftreten? Wäre ne Idee. Vom USB oder installiert auf der Festplatte?

          • gandalf_der_12te@feddit.de
            link
            fedilink
            arrow-up
            1
            ·
            edit-2
            10 months ago

            genau. Ich glaube, wo das System installiert ist, macht nicht so einen großen Unterschied.

            Jedenfalls könntest du damit feststellen, ob es ein Hardware-Problem oder ein Software-Problem ist, oder ob es unabhängig auftritt (also spontan). Spontan würde auf Schwankungen in der Umgebung, wie Stromversorgung hinweisen.

            EDIT: Vielleicht liegt’s auch am Netzteil?

  • Takios@feddit.de
    link
    fedilink
    arrow-up
    2
    ·
    10 months ago

    Hab mit mit dem selben Live-USB per GTKStressTesting fast eine Stunde lang verschiedene Benchmarks gemacht, darunter auch mit Testalgorithmen, die besonders fehleranfällig sind.

    Das System ist kein einziges Mal abgeschmiert/ gebugged, obwohl alle Kerne komplett ausgereizt waren. Im Gegenteil, es war minimal langsamer, aber hat butterweich funktioniert.

    Probier mal ein BIOS Update und wenn es immer noch auftritt, dann würde ich nach und nach die C-States des Prozessors abschalten. Das sind die Stromsparmodi des Prozessors und manchmal haben CPUs Probleme aus den tiefen C-States wieder aufzuwachen.

    Das sollte entweder irgendwo in den BIOS Einstellungen möglich sein, oder in Linux über den Kernelparameter processor.max_cstate=x und dabei x durch die maximale C-State Nummer ersetzen. Dieser lässt sich in der Datei /etc/default/grub in der Zeile mit GRUB_CMDLINE_LINUX="" eintragen und danach mit update-grub2 oder update-bootloader oder update-grub anwenden. Fange dabei erst mit 5 an und gehe schrittweise bis zur 0.

  • axo@feddit.de
    link
    fedilink
    arrow-up
    1
    ·
    10 months ago

    Was für eine CPU hast du? Gibt Probleme mit AMD Ryzrn CPUs mit Zen1 und Zen+ Architektur, bei denen manche C States den PC zum freezen bringen.

    Könnte es damit zusammen hängen? Ist allerdings primär n Linux problem.