#research

7 posts

Mar 23, 2026 · 13 min read

150 Claude Code Agents Got the Same Data. They Produced Different Results.

#ai-agents #research #reproducibility #claude-code #llm-evaluation

Mar 23, 2026 · 3 min read

Human-Certified Module Repositories: Trust Infrastructure for AI-Assembled Code

#supply-chain #research #open-source #package-management #ai-security

Mar 23, 2026 · 3 min read

SWE-CI: Can AI Agents Actually Maintain a Codebase Over Time?

#ai-agents #research #ci-cd #code-maintenance #benchmarks

Mar 23, 2026 · 13 min read

Vibe Code Bench: Best AI Model Hits 58% on Real Web App Development

#ai-code-quality #research #vibe-coding #benchmarks #web-development

Mar 23, 2026 · 12 min read

VIBEPASS: AI Models Can Write Code But Cannot Find Their Own Bugs

#ai-code-quality #research #code-review #vibepass #llm-evaluation

Mar 16, 2026 · 8 min read

The Wrong Benchmark: Why "Human-Level" Misses What Actually Matters in AI Refactoring

Mar 13, 2026 · 10 min read

[Needs Title] Research: A Practical Guide for Establishing a Technical Debt Manageme

#from-signal #sig-sig-1639fb6c #research