Siti Web e Crawler
Sistema di crawling automatico di Hotely per l'addestramento dell'Agent AI — come aggiungere URL, avviare il crawl, filtrare i contenuti, rivedere i risultati e mantenere aggiornata la base di conoscenza.
Il crawler di Hotely è uno strumento automatico che visita il tuo sito web, estrae il contenuto testuale di ogni pagina e lo rende disponibile all'Agent AI come base di conoscenza. Grazie al crawler, l'Agent può rispondere alle domande degli utenti utilizzando le informazioni già presenti sul tuo sito, senza che tu debba copiare e incollare manualmente ogni testo.
Questo approccio ha un vantaggio fondamentale: il tuo sito web contiene già la maggior parte delle informazioni che i clienti cercano. Il crawler le raccoglie, le indicizza e le mette a disposizione dell'Agent in pochi minuti.
Come funziona il crawler
Il processo di crawling si articola in quattro fasi:
1. Aggiunta dell'URL
Inserisci l'URL del tuo sito web nella sezione Siti Web dell'Agent. Il crawler utilizza questo URL come punto di partenza per la scansione.
Puoi aggiungere:
- L'URL della homepage — il crawler seguirà automaticamente i link interni per scoprire le altre pagine
- URL di pagine specifiche — se vuoi indicizzare solo determinate sezioni del sito
- Più URL — per coprire diversi siti o sottosezioni
| Tipo di URL | Esempio | Cosa viene scansionato |
|---|---|---|
| Homepage | https://www.hotelbellavista.it | Tutte le pagine raggiungibili dalla home |
| Pagina specifica | https://www.hotelbellavista.it/camere | Solo quella pagina |
| Sottosezione | https://www.hotelbellavista.it/servizi/ | Pagine nella sottosezione (se crawl ricorsivo) |
2. Scansione automatica
Una volta avviato, il crawler:
- Visita la pagina indicata
- Estrae il contenuto testuale (titoli, paragrafi, liste, tabelle)
- Identifica i link interni alla stessa pagina
- Segue i link interni per scoprire altre pagine del sito
- Ripete il processo per ogni pagina trovata
- Si ferma quando ha raggiunto il limite di pagine configurato o ha esplorato tutto il sito
Il crawler rispetta le best practice del web: non sovraccarica il server, segue le regole del file robots.txt e non accede a pagine protette da autenticazione.
3. Revisione dei risultati
Al termine della scansione, il sistema presenta la lista delle pagine trovate con un'anteprima del contenuto estratto da ciascuna. Per ogni pagina puoi:
- Visualizzare il contenuto estratto — controlla che il testo sia quello che desideri
- Includere o escludere la pagina — seleziona solo le pagine con informazioni utili per l'Agent
- Verificare la qualità dell'estrazione — assicurati che il testo sia leggibile e completo
4. Pubblicazione
Dopo aver selezionato le pagine da includere, clicca "Pubblica" per rendere i contenuti disponibili all'Agent. Da questo momento, l'Agent potrà utilizzare le informazioni estratte per rispondere alle domande degli utenti.
Procedura passo-passo
Aggiungere un sito web
- Dalla dashboard dell'Agent, vai alla sezione "Siti Web" o "Crawler"
- Clicca "Aggiungi sito web" o "Nuovo URL"
- Inserisci l'URL completo del tuo sito (includi
https://) - Clicca "Aggiungi"
Avviare il crawl
- Nella lista dei siti web aggiunti, troverai il tuo URL
- Clicca "Avvia crawl" o "Scansiona"
- Il sistema inizia la scansione — la durata dipende dal numero di pagine del sito
- Puoi monitorare l'avanzamento in tempo reale: pagine trovate, pagine scansionate, stato corrente
Tempi indicativi:
| Dimensione sito | Numero pagine | Tempo stimato |
|---|---|---|
| Piccolo | 5-20 pagine | 1-3 minuti |
| Medio | 20-100 pagine | 3-10 minuti |
| Grande | 100+ pagine | 10-30 minuti |
Rivedere i risultati
Al termine della scansione:
- Viene mostrata la lista delle pagine scansionate con titolo e anteprima
- Per ogni pagina, clicca per espandere e visualizzare il contenuto completo estratto
- Usa i checkbox per selezionare o deselezionare le pagine
- Deseleziona le pagine con contenuto non pertinente (es. pagine legali, pagine con solo immagini, pagine vuote)
Pubblicare i contenuti
- Verifica che le pagine selezionate contengano le informazioni desiderate
- Clicca "Pubblica" o "Salva e pubblica"
- I contenuti vengono indicizzati e resi disponibili all'Agent
- Testa l'Agent per verificare che le risposte utilizzino i nuovi contenuti
Filtraggio dei contenuti
Filtri per URL
Se il tuo sito ha molte pagine ma solo alcune sono rilevanti per l'Agent, puoi utilizzare i filtri per URL:
- Includi solo — specifica un pattern di URL da includere (es. solo le pagine sotto
/camere/e/servizi/) - Escludi — specifica un pattern di URL da escludere (es. escludi
/blog/se non vuoi che l'Agent citi articoli del blog)
Selezione manuale delle pagine
Dopo la scansione, puoi selezionare individualmente quali pagine includere. Questo è il metodo più preciso e consigliato per siti di piccole-medie dimensioni.
Pagine da includere tipicamente:
- Homepage (informazioni generali sulla struttura)
- Pagina camere/servizi (dettagli su cosa offri)
- Pagina contatti (orari, indirizzo, indicazioni)
- Pagina FAQ (se presente)
- Pagina ristorante/menu (se applicabile)
- Pagina attività/esperienze (cosa fare nei dintorni)
Pagine da escludere tipicamente:
- Pagine legali (privacy, cookie policy) — a meno che non vuoi che l'Agent risponda su questi temi
- Pagine del blog — possono aggiungere rumore con informazioni datate
- Pagine con contenuto minimo o duplicato
- Pagine di login o area riservata
- Landing page per campagne specifiche scadute
Qualità del contenuto estratto
Il crawler estrae il testo visibile nelle pagine HTML. Alcuni tipi di contenuto non vengono estratti bene:
| Tipo di contenuto | Qualità estrazione | Note |
|---|---|---|
| Testo HTML standard | Ottima | Paragrafi, titoli, liste |
| Tabelle HTML | Buona | Struttura preservata |
| Contenuto in accordion/tab | Variabile | Dipende dall'implementazione |
| Testo in immagini | Non estratto | Usa file separati per questi contenuti |
| Contenuto JavaScript dinamico | Variabile | Pagine con rendering server-side funzionano meglio |
| PDF linkati | Non estratto | Carica i PDF separatamente nella sezione File |
Aggiornamenti automatici
I contenuti del tuo sito web cambiano nel tempo: aggiorni i prezzi, modifichi gli orari, aggiungi nuovi servizi. Per mantenere l'Agent allineato, puoi configurare aggiornamenti automatici del crawl.
Frequenza di aggiornamento
Puoi impostare il crawler per rieseguire la scansione a intervalli regolari:
| Frequenza | Quando sceglierla |
|---|---|
| Giornaliera | Siti con contenuti che cambiano spesso (ristoranti con menu del giorno) |
| Settimanale | Siti con aggiornamenti regolari ma non quotidiani |
| Mensile | Siti con contenuti sostanzialmente stabili |
| Manuale | Quando preferisci controllare esattamente cosa viene indicizzato |
Aggiornamento manuale
In qualsiasi momento puoi forzare un nuovo crawl:
- Vai alla sezione Siti Web dell'Agent
- Clicca "Riesegui crawl" accanto al sito desiderato
- Attendi il completamento della scansione
- Rivedi i risultati e pubblica
Questo è consigliato dopo ogni aggiornamento significativo del sito web (nuovo listino, nuovi servizi, cambio orari).
Gestire più siti web
Puoi aggiungere più URL allo stesso Agent per combinare contenuti da fonti diverse:
- Sito web principale + pagina TripAdvisor (per le recensioni)
- Sito italiano + sito in inglese (per contenuti multilingua di qualità superiore)
- Sito dell'hotel + sito del ristorante interno (se hanno domini separati)
Ogni sito viene scansionato indipendentemente e i contenuti vengono combinati nella base di conoscenza dell'Agent.
Risoluzione dei problemi
Il crawler non trova pagine
- Verifica che l'URL sia corretto e raggiungibile da un browser
- Controlla che il sito non blocchi i crawler tramite
robots.txt - Assicurati che le pagine non richiedano autenticazione
- Se il sito usa rendering JavaScript lato client, alcune pagine potrebbero non essere accessibili
Il contenuto estratto è incompleto
- Verifica che il contenuto sia effettivamente nel codice HTML della pagina (e non generato solo via JavaScript)
- Controlla che il testo non sia contenuto in immagini
- Per contenuti in tab o accordion, prova ad aggiungere direttamente gli URL delle singole sezioni
Il crawler è lento
- Siti con molte pagine richiedono più tempo — è normale
- Riduci lo scope aggiungendo filtri per URL
- Se il sito è molto grande, considera di aggiungere solo le pagine più rilevanti manualmente
Per assistenza con il crawler, contatta support@hotely.ai.