fb-pixel
Hotely Logo

Siti Web e Crawler

Sistema di crawling automatico di Hotely per l'addestramento dell'Agent AI — come aggiungere URL, avviare il crawl, filtrare i contenuti, rivedere i risultati e mantenere aggiornata la base di conoscenza.

Il crawler di Hotely è uno strumento automatico che visita il tuo sito web, estrae il contenuto testuale di ogni pagina e lo rende disponibile all'Agent AI come base di conoscenza. Grazie al crawler, l'Agent può rispondere alle domande degli utenti utilizzando le informazioni già presenti sul tuo sito, senza che tu debba copiare e incollare manualmente ogni testo.

Questo approccio ha un vantaggio fondamentale: il tuo sito web contiene già la maggior parte delle informazioni che i clienti cercano. Il crawler le raccoglie, le indicizza e le mette a disposizione dell'Agent in pochi minuti.

Come funziona il crawler

Il processo di crawling si articola in quattro fasi:

1. Aggiunta dell'URL

Inserisci l'URL del tuo sito web nella sezione Siti Web dell'Agent. Il crawler utilizza questo URL come punto di partenza per la scansione.

Puoi aggiungere:

  • L'URL della homepage — il crawler seguirà automaticamente i link interni per scoprire le altre pagine
  • URL di pagine specifiche — se vuoi indicizzare solo determinate sezioni del sito
  • Più URL — per coprire diversi siti o sottosezioni
Tipo di URLEsempioCosa viene scansionato
Homepagehttps://www.hotelbellavista.itTutte le pagine raggiungibili dalla home
Pagina specificahttps://www.hotelbellavista.it/camereSolo quella pagina
Sottosezionehttps://www.hotelbellavista.it/servizi/Pagine nella sottosezione (se crawl ricorsivo)

2. Scansione automatica

Una volta avviato, il crawler:

  • Visita la pagina indicata
  • Estrae il contenuto testuale (titoli, paragrafi, liste, tabelle)
  • Identifica i link interni alla stessa pagina
  • Segue i link interni per scoprire altre pagine del sito
  • Ripete il processo per ogni pagina trovata
  • Si ferma quando ha raggiunto il limite di pagine configurato o ha esplorato tutto il sito

Il crawler rispetta le best practice del web: non sovraccarica il server, segue le regole del file robots.txt e non accede a pagine protette da autenticazione.

3. Revisione dei risultati

Al termine della scansione, il sistema presenta la lista delle pagine trovate con un'anteprima del contenuto estratto da ciascuna. Per ogni pagina puoi:

  • Visualizzare il contenuto estratto — controlla che il testo sia quello che desideri
  • Includere o escludere la pagina — seleziona solo le pagine con informazioni utili per l'Agent
  • Verificare la qualità dell'estrazione — assicurati che il testo sia leggibile e completo

4. Pubblicazione

Dopo aver selezionato le pagine da includere, clicca "Pubblica" per rendere i contenuti disponibili all'Agent. Da questo momento, l'Agent potrà utilizzare le informazioni estratte per rispondere alle domande degli utenti.

Procedura passo-passo

Aggiungere un sito web

  1. Dalla dashboard dell'Agent, vai alla sezione "Siti Web" o "Crawler"
  2. Clicca "Aggiungi sito web" o "Nuovo URL"
  3. Inserisci l'URL completo del tuo sito (includi https://)
  4. Clicca "Aggiungi"

Avviare il crawl

  1. Nella lista dei siti web aggiunti, troverai il tuo URL
  2. Clicca "Avvia crawl" o "Scansiona"
  3. Il sistema inizia la scansione — la durata dipende dal numero di pagine del sito
  4. Puoi monitorare l'avanzamento in tempo reale: pagine trovate, pagine scansionate, stato corrente

Tempi indicativi:

Dimensione sitoNumero pagineTempo stimato
Piccolo5-20 pagine1-3 minuti
Medio20-100 pagine3-10 minuti
Grande100+ pagine10-30 minuti

Rivedere i risultati

Al termine della scansione:

  1. Viene mostrata la lista delle pagine scansionate con titolo e anteprima
  2. Per ogni pagina, clicca per espandere e visualizzare il contenuto completo estratto
  3. Usa i checkbox per selezionare o deselezionare le pagine
  4. Deseleziona le pagine con contenuto non pertinente (es. pagine legali, pagine con solo immagini, pagine vuote)

Pubblicare i contenuti

  1. Verifica che le pagine selezionate contengano le informazioni desiderate
  2. Clicca "Pubblica" o "Salva e pubblica"
  3. I contenuti vengono indicizzati e resi disponibili all'Agent
  4. Testa l'Agent per verificare che le risposte utilizzino i nuovi contenuti

Filtraggio dei contenuti

Filtri per URL

Se il tuo sito ha molte pagine ma solo alcune sono rilevanti per l'Agent, puoi utilizzare i filtri per URL:

  • Includi solo — specifica un pattern di URL da includere (es. solo le pagine sotto /camere/ e /servizi/)
  • Escludi — specifica un pattern di URL da escludere (es. escludi /blog/ se non vuoi che l'Agent citi articoli del blog)

Selezione manuale delle pagine

Dopo la scansione, puoi selezionare individualmente quali pagine includere. Questo è il metodo più preciso e consigliato per siti di piccole-medie dimensioni.

Pagine da includere tipicamente:

  • Homepage (informazioni generali sulla struttura)
  • Pagina camere/servizi (dettagli su cosa offri)
  • Pagina contatti (orari, indirizzo, indicazioni)
  • Pagina FAQ (se presente)
  • Pagina ristorante/menu (se applicabile)
  • Pagina attività/esperienze (cosa fare nei dintorni)

Pagine da escludere tipicamente:

  • Pagine legali (privacy, cookie policy) — a meno che non vuoi che l'Agent risponda su questi temi
  • Pagine del blog — possono aggiungere rumore con informazioni datate
  • Pagine con contenuto minimo o duplicato
  • Pagine di login o area riservata
  • Landing page per campagne specifiche scadute

Qualità del contenuto estratto

Il crawler estrae il testo visibile nelle pagine HTML. Alcuni tipi di contenuto non vengono estratti bene:

Tipo di contenutoQualità estrazioneNote
Testo HTML standardOttimaParagrafi, titoli, liste
Tabelle HTMLBuonaStruttura preservata
Contenuto in accordion/tabVariabileDipende dall'implementazione
Testo in immaginiNon estrattoUsa file separati per questi contenuti
Contenuto JavaScript dinamicoVariabilePagine con rendering server-side funzionano meglio
PDF linkatiNon estrattoCarica i PDF separatamente nella sezione File

Aggiornamenti automatici

I contenuti del tuo sito web cambiano nel tempo: aggiorni i prezzi, modifichi gli orari, aggiungi nuovi servizi. Per mantenere l'Agent allineato, puoi configurare aggiornamenti automatici del crawl.

Frequenza di aggiornamento

Puoi impostare il crawler per rieseguire la scansione a intervalli regolari:

FrequenzaQuando sceglierla
GiornalieraSiti con contenuti che cambiano spesso (ristoranti con menu del giorno)
SettimanaleSiti con aggiornamenti regolari ma non quotidiani
MensileSiti con contenuti sostanzialmente stabili
ManualeQuando preferisci controllare esattamente cosa viene indicizzato

Aggiornamento manuale

In qualsiasi momento puoi forzare un nuovo crawl:

  1. Vai alla sezione Siti Web dell'Agent
  2. Clicca "Riesegui crawl" accanto al sito desiderato
  3. Attendi il completamento della scansione
  4. Rivedi i risultati e pubblica

Questo è consigliato dopo ogni aggiornamento significativo del sito web (nuovo listino, nuovi servizi, cambio orari).

Gestire più siti web

Puoi aggiungere più URL allo stesso Agent per combinare contenuti da fonti diverse:

  • Sito web principale + pagina TripAdvisor (per le recensioni)
  • Sito italiano + sito in inglese (per contenuti multilingua di qualità superiore)
  • Sito dell'hotel + sito del ristorante interno (se hanno domini separati)

Ogni sito viene scansionato indipendentemente e i contenuti vengono combinati nella base di conoscenza dell'Agent.

Risoluzione dei problemi

Il crawler non trova pagine

  • Verifica che l'URL sia corretto e raggiungibile da un browser
  • Controlla che il sito non blocchi i crawler tramite robots.txt
  • Assicurati che le pagine non richiedano autenticazione
  • Se il sito usa rendering JavaScript lato client, alcune pagine potrebbero non essere accessibili

Il contenuto estratto è incompleto

  • Verifica che il contenuto sia effettivamente nel codice HTML della pagina (e non generato solo via JavaScript)
  • Controlla che il testo non sia contenuto in immagini
  • Per contenuti in tab o accordion, prova ad aggiungere direttamente gli URL delle singole sezioni

Il crawler è lento

  • Siti con molte pagine richiedono più tempo — è normale
  • Riduci lo scope aggiungendo filtri per URL
  • Se il sito è molto grande, considera di aggiungere solo le pagine più rilevanti manualmente

Per assistenza con il crawler, contatta support@hotely.ai.