| Non esiste un proprietario, ma soltanto un assegnatario, cioè la persona a cui è stato assegnato su richiesta il dominio (persona fisica, società, associazione, ecc.), che è anche responsabile dell’utilizzo che ne viene fatto, con tutte le conseguenze del caso. |
| Il file robots.txt permette ai webmaster e agli amministratori di
sistema di indicare agli spider dei motori di ricerca quali pagine HTML non
debbano essere esaminate. Lo standard per l'esclusione dei robot/spider si avvale dell'utilizzo di un normale file di testo, da creare attraverso un qualunque text editor (es. Notepad / Blocco Note di Windows). Tale file va chiamato "robots.txt" e contiene, in un particolare formato, delle istruzioni che possono impedire a tutti o alcuni spider il prelievo di alcune o tutte le pagine del sito. Il file robots.txt va creato e pubblicato on-line nella directory principale del sito web. Ad esempio, se il sito ha indirizzo http://www.nomesito.xxx , il file dovrà essere accessibile all'indirizzo http://www.nomesito.xxx/robots.txt . Tutti gli spider di quei motori di ricerca che hanno deciso di aderire a questo standard e di seguire le indicazioni del file robots.txt, ogni volta che accederanno al sito web, per prima cosa andranno a cercare nella directory principale il suddetto file e, se lo troveranno, seguiranno le direttive contenute al suo interno. Contenuti del file robots.txt Il file robots.txt contiene una lista di pagine e directory che gli spider NON possono prelevare. Ciò significa che non esiste una istruzione per dire allo spider: "puoi prelevare questa pagina" ma esistono solo istruzioni per dirgli: "NON puoi prelevare questa pagina". Non a caso lo standard si chiama Standard per l'esclusione dei robot. Quanto appena specificato è estremamente importante, in quanto molti degli errori che i webmaster spesso inseriscono nei file robots.txt hanno origine dall'errata comprensione di ciò che è possibile fare con essi. Se non avete la necessità di impedire ai motodi ricerca di prelevare alcune (o tutte) pagine del vostro sito, allora il file robots.txt non vi serve. Formato di robots.txt Il file robots.txt contiene dei record, ognuno dei quali comprende due campi: il campo "User-agent" ed uno o più campi "Disallow". Il campo User-agent serve ad indicare a quale robot/spider le direttive successive sono rivolte. La sua sintassi è: User-agent <duepunti> <spazio> <nome_dello_spider> Il campo Disallow serve a indicare a quali file e/o directory non può accedere lo spider indicato nel campo User-agent. La sintassi di questo campo è: Disallow <duepunti> <spazio> <nome_del_file_o_directory> Esempio di un record: User-agent: googlebot Il suddetto record dice a Google ("googlebot" è il nome dello spider di Google) che non gli è permesso prelevare il file testi.html nè accedere alla directory "poesie" e ai suoi contenuti, sottodirectory comprese. Notate come il nome del file è preceduto da un carattere "/" (che indica la directory principale del sito) e come il nome della directory fa uso di un carattere "/" anche in coda. Il campo User-agent può contenere un asterisco "*", sinonimo di "qualunque spider". Per cui l'esempio seguente dice a tutti gli spider di non prelevare il file temporaneo.html: User-agent: * Il campo Disallow può contenere un carattere "/" ad indicare "qualunque file e directory". L'esempio che segue impedisce a scooter (lo spider di Altavista) di prelevare qualunque cosa: User-agent: scooter Infine, il campo Disallow può essere lasciato vuoto, ad indicare che non ci sono file o directory di cui si vuole impedire il prelievo. L'esempio seguente mostra come dire a tutti i motori di ricerca di prelevare tutti i file del sito: User-agent: * Esempio di un file robots.txt Come scritto pocanzi, il file robots.txt si compone di uno o più record, ognuno dei quali prende in esame spider differenti. Ecco dunque un esempio completo di file robots.txt, che blocca del tutto Altavista, impedisce a Google l'accesso ad alcuni file e directory e lascia libero accesso a tutti gli altri motori di ricerca. User-agent: scooter User-agent: googlebot User-agent: * Lista degli spider Di seguito una breve lista con i nomi degli spider dei principali motori di ricerca internazionali: Spider Motore di ricerca Il nome (User-agent) degli spider di altri motori di ricerca può essere individuato cercando nei log del server HTTP che gestisce il sito web oppure consultando le pagine dei motori di ricerca dedicate ai webmaster. Quasi sempre, vengono indicati i nomi degli spider e come bloccarli usando il file robots.txt. Altre informazioni utili Nel caso in cui voleste inserire all'interno del file robots.txt alcuni commenti, potete farlo scrivendo righe di testo il cui primo carattere è un "cancelletto" #. Tali righe verranno completamente ignorate dagli spider dei motori. Esempio: User-agent: * Consigliamo di aderire scrupolosamente alla sintassi utilizzata negli esempi riportati. Prestate attenzione a non dimenticare i due punti e lo spazio prima del contenuto del campo. Quando gli spider non trovano il file robots.txt, si comportano come se avessero ricevuto via libera ed accederanno dunque a tutte le pagine trovate nel sito. |
| Un dominio è un nome che identifica in Internet a livello univoco
un'azienda, associazione o privato (esempio: tol.it). Le prime lettere
in un nome di dominio rappresentano il protocollo di comunicazione
(solitamente www per i siti web); le ultime lettere, dette anche
estensione, indicano la nazione o il tipo di organizzazione: .com ideato inizialmente per il business e le attività commerciali - non ha limitazioni, può essere registrato da qualsiasi persona fisica o giuridica .org ideato inizialmente per le organizzazioni - non ha limitazioni, può essere registrato da qualsiasi persona fisica o giuridica .net ideato inizialmente per le attività legate alle rete Internet - non ha limitazioni, può essere registrato da qualsiasi persona fisica o giuridica .info ideato inizialmente per le attività informative - non ha limitazioni, può essere registrato da qualsiasi persona fisica o giuridica .biz ideato per il business e dedicato alle aziende e società commerciali, in realtà è senza limitazioni .it è l'estensione nazionale italiana - può essere registrato da persone, società, enti pubblici, professionisti e associazioni Il nome di un dominio è tecnicamente un nome associato ad un indirizzo IP. Quando viene richiesta da un utente la connessione ad un sito tramite la digitazione del nome, i server denominati Domain Name Server (DNS) traducono il dominio nell'indirizzo IP corrispondente. |
| E’ il documento che regolamenta l’assegnazione dei nomi a dominio e puo essere consultato sul sito del NIC. |
| Un protocollo è un insieme di regole che stabiliscono una base comune di comunicazione. In questo modo computer e apparecchiature con caratteristiche diverse possono scambiarsi dati e informazioni. |
| I nomi a dominio sono stati creati per dare una percezione più immediata dei domini per l’uomo. Infatti l’indirizzo usato dai computer per trovare un sito è un indirizzo numerico ossia indirizzo IP (Internet Protocol Address) es. 162.138.122.1. Il DNS (Domain Name Service) è il sistema di traduzione da indirizzo IP usato dai computer a indirizzo mnemonico e viceversa. |
| E’ l’indirizzo di un computer collegato ad internet che ospita dei siti Web. E’ composto da 4 cifre separate da un punto che vanno da 0 a 255 e può appartenere alla classe A, B, C o D. Questo per quanto riguarda lo standard IPV4, ma data limitatezza degli indirizzi disponibili con questo metodo è stato creato lo standard IPV6, che da la possibilità di pressoché infiniti indirizzi IP possibili, garantendo uno sviluppo di internet senza limiti. Questo nuovo standard viene già adottato anche se non ancora da tutti i provider. |
| Si tratta di un Provider autorizzato dai vari registri a gestire i dati relativi ai domini e funge da interfaccia tra il registro ed il registrante. Docitalia è un maintainer accreditato presso il Registro Italiano del ccTLD ".it". |
| Il TLD (Top Level Domain) è il suffisso dell’indirizzo Internet e può essere generico (es.: .com, .net, .org, .biz, .info) oppure nazionale (es.: .it per i domini italiani). |
| RSS (un acronimo per "Rich Site Summary" o, la versione più recente, per "Really Simple Syndication") è un metodo usato dai siti web per creare un sommario del proprio contenuto, come articoli e notizie, rendendoli consultabili in un formato alternativo. Ad esempio molti siti mettono a disposizione un feed RSS delle proprie notizie, in modo che sia possibile vederli come segnalibro Live sul browser Firefox oppure come e-mail in Thunderbird. Sicuramente quasi tutti i vostri blog preferiti forniscono un feed RSS. |
|
|
|