Virtual meetup summary TMC DACH 1st anniversary: Vibestagram - the vibe coding experiment

:gb:
See

:de:
Bericht vom TMC DACH Geburtstag und „Vibestagram“: KI‑gestütztes Coding Experiment und Security‑Erfahrungen (TMC DACH)

Kontext
Beim virtuellen Termin von TMC DACH am 18.03.26 nahmen rund 25 Personen teil, moderiert von Ron. Nach einer kurzen Einführung in TMC und gab es zwei tolle Ankündigungen:

  1. TMC DACH feiert seinen ersten Geburtstag!
  2. Und als Geschenk gibt es die Veröffentlichung von

Dann ging es auch gleich zu unserem Gastredner Jan über. Er hatte Spannendes über einen Workshop zu berichten, welcher bei iteratec im Sommer 2025 durchgeführt wurde.

Die Aufgabe: In einer Stunde sollten kleine Teams einen funktionsfähigen Klon von Instagram mit KI‑Unterstützung entwickeln – egal mit welchem Modell. Nach der Erarbeitung, in der zweiten Stunde des Workshops, tauschten die Gruppen gegenseitig ihren Code, um Schwachstellen und Qualitätsaspekte zu beurteilen. Im Workshop befanden sich u.a. Entwicklerinnen und Entwickler, Architektinnen und Architekten und Pentesterinnen und Pentester.
Beobachtungen aus der Übung
Die Spannbreite der Ergebnisse war groß:

  • Einige Teams konzentrierten sich auf visuelle Gestaltung (Design, UI/UX), andere schafften voll funktionale Webanwendungen mit Login, Passwort‑Reset und Upload‑Funktionen.
  • Mehrere Gruppen diskutierten während der gesamten Stunde noch Architektur­fragen – andere hatten bereits nahezu fertige Klone aufgebaut.
  • Typische kleine Webfehler (klickbarer Logout‑Button der auf “Not found” leitet, Retro‑Layout) waren verbreitet, aber auch positive Überraschungen: Passwörter in der Datenbank waren gehasht und gesalzen.
  • Gleichzeitig existierten kritische Lücken: ungeschützte Upload‑Pfad‑Zugriffe, direkt aufrufbare Datenbank‑Initialisierung, fehlende CSRF‑Tokens, downloadbare SQLite‑Dateien, teilweise hochladbare Webshells.
  • Eine bemerkenswerte Abwesenheit: keine SQL‑Injection wurdem gefunden – dafür Schwächen auf Konzept‑ und Integrationsebene.

Jan fasste zusammen: „Ein Speedrun durch OWASP Top 10 – nur eine Stufe tiefer als gedacht.“

Bilder dazu:

Nach der Austauschphase bewerteten die Gruppen die gefundenen Probleme und glichen sie mit ihren anfänglichen Erwartungen ab – meist fiel das Fazit positiver aus als gedacht.

Diskussion: KI‑Erfahrungen und Modellvergleiche
In der anschließenden Diskussion (fast 1h) schilderten Teilnehmende sehr unterschiedliche Erfahrungen mit KI‑Assistenz in der Entwicklung:

  • Claude wurde von einigen für Code‑Generierung genutzt, Gemini für Reviews – mit dem Feedback: KI‑Modelle kritisieren die Benutzerin/den Benutzer eher wenig, aber machen sich gegenseitig schlecht (Gemini sei „freier“ und wirft der anfragenden Person schon mal einen Vorwurf an den Kopf wie „das kann doch schon ein siebenjähriges Kind!“).
  • Jan berichtete von großen Modellunterschieden – was heute generiert wird, unterscheidet sich spürbar von Ergebnissen vor wenigen Monaten.
  • Ein Teilnehmer betonte, dass präzise Fachbeschreibungen entscheidend sind – unscharfe Prompts führen schnell zum Scheitern.
  • Ron wies darauf hin, dass viele Modelle Schwierigkeiten haben, Unwissen einzugestehen – was zu architektonischen Schwächen führen kann.
  • Jan ergänzte, dass gezieltes Prompten („prüfe speziell XSS“, „prüfe speziell SQL Injection“) deutlich bessere Resultate bringt als allgemeine offene Sicherheitsfragen.
  • Ein weiterer Teilnehmer beschrieb den Ansatz, spezielle Agents für klar abgegrenzte Teilaufgaben (z. B. Testen, Review, Spezifikationsvergleich) einzusetzen. Das verbessert die Präzision, zeigt aber auch Integrationsgrenzen.

Übergreifende Reflexionen
Die Runde widmete sich dann der Rolle von KI im Software‑Lifecycle:

  • Positiv: Review von Pentest‑Reports und statische Codeanalyse funktionieren laut Jan inzwischen sehr zuverlässig.
  • Fehlende Nutzung: Dependency‑Checks oder Laufzeit‑Konflikte werden unter den Teilnehmenden nicht mit KI geprüft.
  • Kritisch: Mehrere Stimmen warnten vor dem Verlust des „Handwerksstolzes“ – wer zu oft die KI entscheiden ließe, verlerne Grundfertigkeiten.
  • Ein weiterer Teilnehmer brachte den Aspekt der digitalen Souveränität ein: Abhängigkeit von proprietären US‑Modellen gefährdet langfristig europäische Kontrolle über Entwicklungsprozesse.
  • Der Vergleich zu Ärztinnen und Ärzten, die Bildbefunderkennung wieder ohne KI trainieren, wurde als Analogie zur Software‑Ausbildung herangezogen. Noch niemand im Publikum hatte eine solche Praxis aktiv eingeführt.
  • Einigkeit bestand darin, dass europäische Modelle – etwa Aleph Alpha – perspektivisch aufholen können, aber derzeit noch im Rückstand sind.

Fazit
Das Experiment zeigte: KI‑gestützte Entwicklung kann in kurzer Zeit überraschend funktionsfähige Anwendungen hervorbringen, doch sicherheitsrelevante Designfehler bleiben. Die Qualität hängt stark vom Modell, der Promptpräzision und der Rollenverteilung zwischen Mensch und KI ab.
Gleichzeitig wurde deutlich, dass organisatorische und ethische Fragen – Abhängigkeit, Kompetenz­erhalt, Transparenz – zunehmend in den Vordergrund treten und über reine technische Sicherheit hinausgehen.
Es bleibt zu beobachten, wie sich solches mit besser werdenden Modellen weiterentwickelt…

Nächste Veranstaltung
Wie üblich haben wir bereits das nächste virtuelle Treffen im April geplant:

​Dies ist die erste Veranstaltung in unserem neuen Format “Werkzeugschau”. Hier stellen Fachkundige (oder die Schöpfer:innen selbst) Bedrohungsmodellierungswerkzeuge und ihre Hintergründe vor. Dann probieren wir das Werkzeug direkt aus!
​Inspiration für dieses Format gibt es genug - zuletzt hatte Toreon ein Verzeichnis mit aktuell 55 Werkzeugen veröffentlicht.
Wir freuen uns, euch zu sehen!

1 Like

:de:
See

:gb:
Report from the TMC DACH Anniversary and “Vibestagram”: AI-powered coding experiment and security insights (TMC DACH)

Context
Around 25 people took part in the TMC DACH virtual meeting on 18 March 2026, moderated by Ron. Following a brief introduction to TMC, there were two exciting announcements:

  1. TMC DACH is celebrating its first birthday!
  2. And as a gift, we have the release of

We then moved straight on to our guest speaker, Jan. He had some exciting news to share about a workshop held at iteratec in the summer of 2025.

The task: in one hour, small teams were to develop a fully functional clone of Instagram with AI support – using whichever model they chose. After the development phase, in the second hour of the workshop, the groups exchanged their code with one another to assess vulnerabilities and quality aspects. The workshop participants included developers, architects and pentesters, amongst others.
Observations from the exercise
The range of results was wide:

  • Some teams focused on visual design (design, UI/UX), whilst others created fully functional web applications with with login, password reset and upload functions.
  • Several groups were still discussing architectural issues throughout the entire hour – others had already built clones that were almost complete.
  • Typical minor web errors (a clickable logout button redirecting to ‘Not found’, a retro layout) were common, but there were also positive surprises: passwords in the database were hashed and salted.
  • At the same time, there were critical vulnerabilities: unprotected upload path access, directly accessible database initialisation, missing CSRF tokens, downloadable SQLite files, and in some cases uploadable webshells.
  • A notable absence: no SQL injection was found – instead, weaknesses at the conceptual and integration levels.

Jan summed it up: “A speedrun through the OWASP Top 10 – just one level lower than expected.”

Related images:

After the exchange phase, the groups evaluated the identified issues and compared them with their initial expectations – in most cases, the conclusion was more positive than anticipated.

Discussion: Experiences with AI and model comparisons
In the subsequent discussion (lasting almost an hour), participants described very different experiences with AI assistance in development:

  • Some used Claude for code generation and Gemini for reviews – with the feedback that AI models tend not to criticise the user much, but do tend to disparage one another (Gemini is said to be ‘more free-spirited’ and will sometimes throw accusations at the person making the request, such as ‘even a seven-year-old could do that!’).
  • Jan reported significant differences between models – what is generated today differs noticeably from results from just a few months ago.
  • One participant emphasised that precise technical descriptions are crucial – vague prompts quickly lead to failure.
  • Ron pointed out that many models struggle to admit ignorance – which can lead to architectural weaknesses.
  • Jan added that targeted prompts (“check specifically for XSS”, “check specifically for SQL injection”) yield significantly better results than general, open-ended security questions.
  • Another participant described the approach of using specialised agents for clearly defined subtasks (e.g. testing, review, specification comparison). This improves precision but also highlights integration limitations.

Overarching reflections
The discussion then turned to the role of AI in the software lifecycle:

  • Positive: According to Jan, the review of penetration test reports and static code analysis now work very reliably.
  • Underutilisation: Dependency checks and runtime conflicts are not currently being checked using AI among the participants.
  • Critical: Several voices warned against the loss of ‘professional pride’ – those who let AI make decisions too often would lose basic skills.
  • Another participant raised the issue of digital sovereignty: dependence on proprietary US models jeopardises European control over development processes in the long term.
  • The comparison with doctors who are retraining in image diagnosis without AI was used as an analogy for software training. No one in the audience had yet actively introduced such a practice.
  • There was agreement that European models – such as Aleph Alpha – could catch up in the future, but are currently still lagging behind.

Conclusion
The experiment showed that AI-assisted development can produce surprisingly functional applications in a short time, yet safety-critical design flaws remain. Quality depends heavily on the model, the precision of the prompts, and the division of roles between humans and AI.
At the same time, it became clear that organisational and ethical issues – dependency, maintaining competence, transparency – are increasingly coming to the fore and go beyond mere technical security.
It remains to be seen how this will develop as models improve…

Next event:
As usual, we’ve already scheduled the next event in April:

luma.com

:hammer_and_wrench: Werkzeugschau: AttackTree.online trifft KI-Agenten - TMC DACH · Zoom · Luma

:germany: :austria: :switzerland: [lang:de] Triff und erprobe AttackTree.online ! Mit Christian Schneider lernen und erproben wir das Threat Modeling Werkzeug AttackTree.online -…

This is part of a new type of event: We want to show which threat modelig tools exist out there and try them together with you!

1 Like