Siti Web e Crawler

Il crawler di Hotely è uno strumento automatico che visita il tuo sito web, estrae il contenuto testuale di ogni pagina e lo rende disponibile all'Agent AI come base di conoscenza. Grazie al crawler, l'Agent può rispondere alle domande degli utenti utilizzando le informazioni già presenti sul tuo sito, senza che tu debba copiare e incollare manualmente ogni testo.

Questo approccio ha un vantaggio fondamentale: il tuo sito web contiene già la maggior parte delle informazioni che i clienti cercano. Il crawler le raccoglie, le indicizza e le mette a disposizione dell'Agent in pochi minuti.

Come funziona il crawler

Il processo di crawling si articola in quattro fasi:

1. Aggiunta dell'URL

Inserisci l'URL del tuo sito web nella sezione Siti Web dell'Agent. Il crawler utilizza questo URL come punto di partenza per la scansione.

Puoi aggiungere:

L'URL della homepage — il crawler seguirà automaticamente i link interni per scoprire le altre pagine
URL di pagine specifiche — se vuoi indicizzare solo determinate sezioni del sito
Più URL — per coprire diversi siti o sottosezioni

Tipo di URL	Esempio	Cosa viene scansionato
Homepage	`https://www.hotelbellavista.it`	Tutte le pagine raggiungibili dalla home
Pagina specifica	`https://www.hotelbellavista.it/camere`	Solo quella pagina
Sottosezione	`https://www.hotelbellavista.it/servizi/`	Pagine nella sottosezione (se crawl ricorsivo)

2. Scansione automatica

Una volta avviato, il crawler:

Visita la pagina indicata
Estrae il contenuto testuale (titoli, paragrafi, liste, tabelle)
Identifica i link interni alla stessa pagina
Segue i link interni per scoprire altre pagine del sito
Ripete il processo per ogni pagina trovata
Si ferma quando ha raggiunto il limite di pagine configurato o ha esplorato tutto il sito

Il crawler rispetta le best practice del web: non sovraccarica il server, segue le regole del file robots.txt e non accede a pagine protette da autenticazione.

3. Revisione dei risultati

Al termine della scansione, il sistema presenta la lista delle pagine trovate con un'anteprima del contenuto estratto da ciascuna. Per ogni pagina puoi:

Visualizzare il contenuto estratto — controlla che il testo sia quello che desideri
Includere o escludere la pagina — seleziona solo le pagine con informazioni utili per l'Agent
Verificare la qualità dell'estrazione — assicurati che il testo sia leggibile e completo

4. Pubblicazione

Dopo aver selezionato le pagine da includere, clicca "Pubblica" per rendere i contenuti disponibili all'Agent. Da questo momento, l'Agent potrà utilizzare le informazioni estratte per rispondere alle domande degli utenti.

Procedura passo-passo

Aggiungere un sito web

Dalla dashboard dell'Agent, vai alla sezione "Siti Web" o "Crawler"
Clicca "Aggiungi sito web" o "Nuovo URL"
Inserisci l'URL completo del tuo sito (includi https://)
Clicca "Aggiungi"

Avviare il crawl

Nella lista dei siti web aggiunti, troverai il tuo URL
Clicca "Avvia crawl" o "Scansiona"
Il sistema inizia la scansione — la durata dipende dal numero di pagine del sito
Puoi monitorare l'avanzamento in tempo reale: pagine trovate, pagine scansionate, stato corrente

Tempi indicativi:

Dimensione sito	Numero pagine	Tempo stimato
Piccolo	5-20 pagine	1-3 minuti
Medio	20-100 pagine	3-10 minuti
Grande	100+ pagine	10-30 minuti

Rivedere i risultati

Al termine della scansione:

Viene mostrata la lista delle pagine scansionate con titolo e anteprima
Per ogni pagina, clicca per espandere e visualizzare il contenuto completo estratto
Usa i checkbox per selezionare o deselezionare le pagine
Deseleziona le pagine con contenuto non pertinente (es. pagine legali, pagine con solo immagini, pagine vuote)

Pubblicare i contenuti

Verifica che le pagine selezionate contengano le informazioni desiderate
Clicca "Pubblica" o "Salva e pubblica"
I contenuti vengono indicizzati e resi disponibili all'Agent
Testa l'Agent per verificare che le risposte utilizzino i nuovi contenuti

Filtraggio dei contenuti

Filtri per URL

Se il tuo sito ha molte pagine ma solo alcune sono rilevanti per l'Agent, puoi utilizzare i filtri per URL:

Includi solo — specifica un pattern di URL da includere (es. solo le pagine sotto /camere/ e /servizi/)
Escludi — specifica un pattern di URL da escludere (es. escludi /blog/ se non vuoi che l'Agent citi articoli del blog)

Selezione manuale delle pagine

Dopo la scansione, puoi selezionare individualmente quali pagine includere. Questo è il metodo più preciso e consigliato per siti di piccole-medie dimensioni.

Pagine da includere tipicamente:

Homepage (informazioni generali sulla struttura)
Pagina camere/servizi (dettagli su cosa offri)
Pagina contatti (orari, indirizzo, indicazioni)
Pagina FAQ (se presente)
Pagina ristorante/menu (se applicabile)
Pagina attività/esperienze (cosa fare nei dintorni)

Pagine da escludere tipicamente:

Pagine legali (privacy, cookie policy) — a meno che non vuoi che l'Agent risponda su questi temi
Pagine del blog — possono aggiungere rumore con informazioni datate
Pagine con contenuto minimo o duplicato
Pagine di login o area riservata
Landing page per campagne specifiche scadute

Qualità del contenuto estratto

Il crawler estrae il testo visibile nelle pagine HTML. Alcuni tipi di contenuto non vengono estratti bene:

Tipo di contenuto	Qualità estrazione	Note
Testo HTML standard	Ottima	Paragrafi, titoli, liste
Tabelle HTML	Buona	Struttura preservata
Contenuto in accordion/tab	Variabile	Dipende dall'implementazione
Testo in immagini	Non estratto	Usa file separati per questi contenuti
Contenuto JavaScript dinamico	Variabile	Pagine con rendering server-side funzionano meglio
PDF linkati	Non estratto	Carica i PDF separatamente nella sezione File

Aggiornamenti automatici

I contenuti del tuo sito web cambiano nel tempo: aggiorni i prezzi, modifichi gli orari, aggiungi nuovi servizi. Per mantenere l'Agent allineato, puoi configurare aggiornamenti automatici del crawl.

Frequenza di aggiornamento

Puoi impostare il crawler per rieseguire la scansione a intervalli regolari:

Frequenza	Quando sceglierla
Giornaliera	Siti con contenuti che cambiano spesso (ristoranti con menu del giorno)
Settimanale	Siti con aggiornamenti regolari ma non quotidiani
Mensile	Siti con contenuti sostanzialmente stabili
Manuale	Quando preferisci controllare esattamente cosa viene indicizzato

Aggiornamento manuale

In qualsiasi momento puoi forzare un nuovo crawl:

Vai alla sezione Siti Web dell'Agent
Clicca "Riesegui crawl" accanto al sito desiderato
Attendi il completamento della scansione
Rivedi i risultati e pubblica

Questo è consigliato dopo ogni aggiornamento significativo del sito web (nuovo listino, nuovi servizi, cambio orari).

Gestire più siti web

Puoi aggiungere più URL allo stesso Agent per combinare contenuti da fonti diverse:

Sito web principale + pagina TripAdvisor (per le recensioni)
Sito italiano + sito in inglese (per contenuti multilingua di qualità superiore)
Sito dell'hotel + sito del ristorante interno (se hanno domini separati)

Ogni sito viene scansionato indipendentemente e i contenuti vengono combinati nella base di conoscenza dell'Agent.

Risoluzione dei problemi

Il crawler non trova pagine

Verifica che l'URL sia corretto e raggiungibile da un browser
Controlla che il sito non blocchi i crawler tramite robots.txt
Assicurati che le pagine non richiedano autenticazione
Se il sito usa rendering JavaScript lato client, alcune pagine potrebbero non essere accessibili

Il contenuto estratto è incompleto

Verifica che il contenuto sia effettivamente nel codice HTML della pagina (e non generato solo via JavaScript)
Controlla che il testo non sia contenuto in immagini
Per contenuti in tab o accordion, prova ad aggiungere direttamente gli URL delle singole sezioni

Il crawler è lento

Siti con molte pagine richiedono più tempo — è normale
Riduci lo scope aggiungendo filtri per URL
Se il sito è molto grande, considera di aggiungere solo le pagine più rilevanti manualmente

Per assistenza con il crawler, contatta support@hotely.ai.