Miért frissíti a RobotCheck
automatikusan a szabályait?
Az AI-crawlerek gyorsabban fejlődnek, mint bármely dokumentáció. Aki egyszer ellenőrzi a weboldalát, majd vár, hamarosan elavult szabályok ellen tesztel — és észre sem veszi.
A probléma: a szabályok elavulnak, a weboldalak nem
Amikor a RobotCheck.coffee tavaly elindult, az llms.txt még csak néhány blog javaslata volt. Ma az Anthropicnak, az OpenAI-nak és a Google-nak saját crawler-irányelveik, bot-neveik és direktíváik vannak — és mindhárom vállalat azóta többször is frissítette a dokumentációját.
Az elemzőeszközök klasszikus problémája: a szabályok, amelyek alapján egy weboldalt ellenőriznek, már az ellenőrzés pillanatában elavultak lehetnek. A felhasználó zöld pipát lát, és azt hiszi, minden rendben van. Közben már hiányozhat egy új direktíva, amely engedélyezné vagy tiltaná a ClaudeBot vagy a GPTBot hozzáférését.
Elavult AI-szabályok alapján ellenőrizni egy weboldalt olyan, mint 2019-es térképpel parkolni — a világ megváltozott.
A megoldás: élő szabálykatalógus
A RobotCheck.coffee egy teljesen automatizált frissítési mechanizmussal oldja meg ezt: hetente egyszer egy feladat lekéri az AI-szolgáltatók — Anthropic, OpenAI, Google, llmstxt.org — hivatalos forrásait, kinyeri az új vagy módosított szabályokat, összehasonlítja a meglévő katalógussal, és csak akkor ír új verziót, ha valóban változott valami.
// Hogyan működik a folyamat
minden hétfőn, 06:00
Google, llmstxt.org
strukturált JSON-ként
szabályok összehasonlítása
csak valódi változáskor
Az 5. lépés kulcspontja: változás nélkül nincs commit. Ha a források azonosak, semmi sem történik. A verziószám csak akkor nő, ha a szabályok tartalmilag eltérnek — új direktíva jelenik meg, egy régi eltűnik, vagy egy súlyossági szint megváltozik.
// Miért van minden szabálynak stabil azonosítója
Minden szabály kap egy megváltoztathatatlan azonosítót, például robots-gptbot-disallow vagy llmstxt-contact-url-present. Ez teszi lehetővé a megbízható összevetést: ha egy szabály szövege megváltozik, az azonosító ugyanaz marad — az elemző felismeri: „Ismerem ezt a szabályt, de most másképp néz ki.“ Stabil azonosítók nélkül minden futtatás látszólag új szabályok özönét produkálná.
Verziók: mi változott és mikor
A szabálykatalógus minden új verziója egy verziózott CHANGELOG-ban landol. Így nyomon követhető, mikor jelent meg először egy szabály — és melyik forrás váltotta ki:
Ez biztonságot ad a felhasználóknak: ha egy pontszám hirtelen romlik, pedig a weboldalon semmi sem változott, a változásnaplóban visszakereshető, melyik új szabály okozta — és mióta érvényes.
Hol láthatják a felhasználók a szabályverziókat?
A nyilvános Changelog oldalon minden verzió megjelenik dátummal, módosított szabályok számával és forrásmegjelöléssel. Minden elemzési jelentés jobb alsó sarkában látható az is, hogy melyik szabályverzió alapján futott az ellenőrzés — így egy mentett jelentés három hónappal később is visszakövethető marad.
A nyilvános változásnapló-oldal egy további előnye: láthatóvá teszi, mennyire aktívan fejlődik a szabvány. Aki rendszeresen visszatér, képet kap arról, merre halad az AI-olvashatóság mint téma — és mikor érdemes újraelemezni a saját weboldalát.
Mi következik?
Hamarosan: E-mail-értesítés, ha új szabályverzió jelenik meg — közvetlen hivatkozással a mentett weboldalak újraelemzéséhez.
Később: Nyilvános API a szabálykatalógushoz, hogy más eszközök is ugyanazt az élő szabványt használhassák.
☕ Támogasd a RobotCheck.coffee-t
Az eszköz ingyenes — az üzemeltetés nem egészen az. Ha hasznosnak találod az AI-olvasható web körüli munkát, egy kávéval segíthetsz a pipeline futásban tartásában.
Köszönöm — minden támogatás közvetlenül API-költségekre és tárhelyre megy.