Crawler del sito web

Il crawler è lo strumento di Hotely che visita automaticamente le pagine del tuo sito web esistente e ne estrae i contenuti per addestrare l'Agent. È il metodo più rapido per dare all'Agent una base di conoscenza completa sulla tua attività ricettiva o di ristorazione — nella maggior parte dei casi bastano pochi minuti per importare l'intera vetrina online.

Quando usare il crawler

Il crawler è la prima fonte di addestramento da attivare quando hai già un sito web — qualsiasi sito, in qualsiasi piattaforma (WordPress, Wix, Squarespace, Shopify, sito custom). Funziona bene per:

Siti di struttura ricettiva — pagine camere, servizi, posizione, contatti, gallery, blog
Siti di ristorazione — pagina menu, filosofia del locale, chef, eventi, posizione
Siti di attività turistiche — descrizione esperienze, tour, FAQ, prenotazioni
Siti di gruppi alberghieri — singole proprietà, contatti, descrizioni complete

Per attività senza un sito web esistente, il crawler non è la via giusta: meglio iniziare con Articoli scritti a mano o File caricati.

Come avviare un crawl

Dalla sidebar dell'Agent, vai su Siti web o Crawler. La schermata mostra l'elenco dei siti già importati e ti permette di aggiungerne uno nuovo.

Inserimento dell'URL

Inserisci l'URL della home del tuo sito (es. https://hotelbellavista.it). Il crawler partirà da questa pagina e seguirà i link interni per scoprire le altre pagine.

Specifica solo il dominio principale — il crawler scopre automaticamente le sotto-pagine. Se vuoi limitare il crawling a una sezione specifica (es. solo la sezione "Camere"), puoi farlo dalle opzioni avanzate.

Avvio della scansione

Cliccando Avvia crawl, il sistema inizia a visitare le pagine in ordine, estrarne il testo e indicizzarlo. Tipicamente:

Un sito vetrina di 5-10 pagine richiede 1-2 minuti
Un sito medio di 20-30 pagine richiede 3-5 minuti
Un sito grande con blog e 100+ pagine richiede 10-15 minuti

Durante la scansione vedi lo stato di avanzamento. Puoi continuare a usare il resto della dashboard, il crawler lavora in background.

Cosa estrae il crawler

Il crawler non copia il sito visivamente — estrae il testo significativo delle pagine. Per ogni pagina conserva:

Il titolo della pagina
Le intestazioni (H1, H2, H3)
Il corpo dei paragrafi
I testi delle liste e tabelle
Le didascalie delle immagini (se presenti)
L'URL della pagina sorgente

Non importa:

Immagini, video, file multimediali
Pulsanti, form, elementi interattivi
Codice JavaScript dinamico complesso (per siti che caricano contenuti dinamicamente, vedi sezione apposita)

Cosa fa l'Agent con i contenuti importati

Una volta importati, i contenuti diventano parte della knowledge base dell'Agent. Quando un ospite fa una domanda, l'Agent ricerca semanticamente nei contenuti per trovare i passaggi più rilevanti e costruisce la risposta usando quelle informazioni.

Esempio reale: ospite scrive "avete la piscina riscaldata?". Se il sito menziona "piscina coperta riscaldata tutto l'anno" nella pagina servizi, l'Agent risponde "Sì, la piscina è riscaldata e disponibile tutto l'anno" attingendo a quella pagina.

L'Agent non copia letteralmente il sito — riformula la risposta in modo conversazionale, adattandosi alla domanda specifica.

Crawl singolo vs ricorrente

Crawl manuale (singolo)

Per default, il crawler fa un passaggio una tantum. Devi rilanciarlo manualmente quando aggiorni il sito.

Crawl automatico ricorrente

Per siti che si aggiornano spesso (un ristorante con menu giornaliero, una struttura con news stagionali, un'attività con eventi ricorrenti), puoi impostare un re-crawl automatico settimanale o mensile. L'Agent re-importerà i contenuti aggiornati senza intervento manuale.

Gestione dei contenuti importati

Dopo il crawl, ogni pagina importata appare nella lista. Per ciascuna puoi:

Visualizzare il contenuto estratto — vedere esattamente cosa l'Agent ha imparato
Disattivare la pagina — se contiene informazioni obsolete o fuorvianti
Riattivare la pagina — se l'avevi disattivata
Eliminare la pagina — rimozione definitiva dalla knowledge base
Forzare il re-crawl di una singola pagina — utile se hai aggiornato solo una sezione

Puoi anche taggare le pagine per categoria (es. "Camere", "Servizi", "Posizione", "Eventi") per gestirle più facilmente quando hai un sito grande.

Buone pratiche per un sito ben crawl-abile

Il crawler funziona meglio se il sito è ben strutturato. Alcuni suggerimenti applicabili a qualsiasi sito di hospitality:

Struttura semantica chiara

Usa intestazioni semantiche (H1, H2, H3) per separare le sezioni. Una pagina "Camere" dovrebbe avere:

H1: "Camere" o "Le nostre camere"
H2 per ogni tipologia: "Camera doppia standard", "Suite vista mare", "Camera familiare"
H3 per sezioni dettaglio di ciascuna: "Dotazioni", "Capacità", "Vista"

Questa struttura aiuta il crawler a capire la gerarchia delle informazioni.

Testi descrittivi, non solo immagini

Una camera presentata solo con una galleria fotografica e poche parole ("La nostra Suite Mare") non dà al crawler abbastanza informazioni. Aggiungi paragrafi descrittivi che parlino di:

Dimensione della camera
Dotazioni specifiche (jacuzzi, balcone, terrazza, vista mare)
Capacità (adulti, bambini, culla)
Tipo di letto (matrimoniale, due singoli)
Servizi inclusi

Questi sono i dati che l'Agent userà per rispondere a domande operative.

Pagina "Informazioni utili" o "FAQ"

Una pagina dedicata con orari, politiche, parcheggio, contatti, indicazioni stradali è oro per il crawler. Per i siti che non l'hanno, è consigliabile aggiungerla — beneficia anche la SEO.

Lingue del sito

Se il sito esiste già in più lingue (versione IT, EN, DE), il crawler può importare ogni versione. L'Agent userà la lingua corretta in base alla lingua dell'ospite. Se hai solo la versione italiana, va comunque bene — l'Agent traduce automaticamente le risposte.

Siti dinamici e Single Page Application

Per siti realizzati come Single Page Application (React, Vue, Angular pure) che caricano contenuti dinamicamente via JavaScript, il crawler di base potrebbe non riuscire a estrarre tutto. In questi casi:

Hotely offre una modalità di crawl con rendering JavaScript completo (più lenta ma più accurata)
In alternativa, puoi esportare il contenuto come PDF e caricarlo via File
Per siti complessi, puoi anche fornire una sitemap XML come punto di partenza

Pagine da non far crawl-are

In alcuni casi è meglio escludere pagine specifiche dal crawl:

Pagine legali generiche (privacy policy, termini) — danno poco valore conversazionale
Pagina admin o login — ovviamente
Pagine di blog non più attuali — articoli obsoleti possono confondere l'Agent
Pagine duplicate per lingua se hai già la versione principale italiana

Dalle impostazioni del crawler puoi configurare un elenco di URL o pattern da escludere.

Re-crawl: quando rilanciare

Rilancia il crawler quando:

Aggiungi nuove pagine al sito (nuova camera, nuovo servizio, nuovo menu)
Modifichi descrizioni importanti
Cambi prezzi, orari o politiche pubblicate sul sito
Hai notato che l'Agent risponde con informazioni vecchie

Il re-crawl sovrascrive i contenuti esistenti con quelli aggiornati. I file e gli articoli non vengono toccati — solo il contenuto importato da web.

Casi reali

Hotel 4 stelle con sito articolato

Sito con 40 pagine: home, hotel (storia, posizione, recensioni), camere (8 tipologie con pagine dedicate), servizi (spa, ristorante, business center, palestra), location (Milano, eventi in città), gallery, contatti. Tempo crawl: 8 minuti. L'Agent risponde immediatamente al 75% delle FAQ degli ospiti senza intervento manuale.

B&B familiare con sito vetrina semplice

Sito con 6 pagine: home, camere, servizi, prenotazione, dintorni, contatti. Tempo crawl: 90 secondi. L'Agent inizia a rispondere con copertura del 60% delle domande tipiche. I padroni di casa aggiungono poi 8 articoli FAQ specifici per arrivare al 90%.

Sito con menu pubblicato come pagina dedicata che cambia ogni mese. Crawl automatico settimanale. L'Agent risponde sempre con il menu attuale, anche se il proprietario dimentica di avvisare. Per gestione ordini il menu strutturato in dashboard è separato.

Gruppo alberghiero multi-proprietà

Sito centralizzato con 5 strutture. Creazione di 5 Agent distinti, ciascuno con il crawler limitato alla sezione della rispettiva proprietà. Ogni Agent conosce solo la sua struttura, evitando confusione cross-proprietà.

Errori frequenti

Errore	Sintomo	Soluzione
Crawl di un solo URL invece di tutto il sito	Solo la home importata	Verificare che la struttura del sito permetta al crawler di seguire i link interni
URL con caratteri speciali	Pagina saltata	Normalizzare gli URL (sostituire spazi con trattini)
Sito protetto da login	Errore di accesso	Configurare credenziali o esportare le pagine come PDF
Sito offline durante il crawl	Crawl incompleto	Rilanciare quando il sito è disponibile
Sito troppo grande (1000+ pagine)	Crawl lentissimo	Limitare a sezioni rilevanti per l'Agent

Privacy e rispetto del sito

Il crawler di Hotely:

Rispetta il file robots.txt del sito (esclude pagine vietate al crawling)
Si identifica come bot Hotely tramite User-Agent
Effettua richieste limitate per non sovraccaricare il server
Non scarica file di grandi dimensioni (immagini, video)
Funziona solo su siti di cui hai i diritti di accesso (non puoi crawlare siti terzi)

Limite di pagine

I limiti tecnici sono generosi e adatti a siti di qualsiasi dimensione tipica dell'hospitality. Per casi molto particolari (gruppi alberghieri con migliaia di pagine) contatta il supporto per dimensionare correttamente.

Prossimi passi

Dopo aver completato il primo crawl:

Verifica le pagine importate dalla lista
Disattiva eventuali pagine non rilevanti (legal, blog vecchi)
Apri una chat di prova e fai domande sul contenuto del sito
Identifica le lacune e colmle con Articoli