URL

Utseende flytta till sidofältet dölj Uniform Resource LocatorStandard
Under­klass till• identifikator
 • Internationalized Resource Identifier
  • Uniform Resource Identifier
Utveck­la­reInternet Engineering Task Force, Web Hypertext Application Technology Working Group
Officiell webbplatsurl.spec.whatwg.org
LicensCreative Commons Erkännande 4.0 Internationell
Stan­dar­di­se­ring­sor­ganInternet Engineering Task Force, Web Hypertext Application Technology Working Group

En URL (från engelskan: Uniform Resource Locator) är den teckensträng som identifierar en viss resurs på internet, till exempel en webbsida (varvid URL:n kan kallas webbadress): http://www.example.org/nyheter/dagens.html. Webbadressen är en del av infrastrukturen för World Wide Web och gör en resurs tillgänglig för en webbläsare. Tekniken skapades av Tim Berners-Lee och presenterades 1989. URL:en är konstruerad för att peka ut resurser på Internet (eller t.ex. ett intranät) och ange hur de kan hittas. En URL kan även användas för att hitta en fil på den egna datorn. Jämför URI ("Uniform Resource Identifier").

Adressens element

En webbadress innehåller ett antal element med mer eller mindre väldefinierad funktion. Beroende på det protokoll som används (och definieras först i adressen) kan tolkningen av delarna skilja och vissa delar vara överflödiga. Vissa av delarna tolkas av allmän internet-programvara, vissa av servern och vissa av webbläsaren.

Exempelvis URL:en http://sv.wikipedia.org:80/w/index.php?title=Dator&action=edit#Historia består av sex olika delar som var och en visar olika information som är nödvändig för att hitta viss information på Internet.

Protokollet kan också avgöra vilket program datorn ska använda för att öppna länken, till exempel öppnas irc: i ens ircklient, mailto: i ens E-postklient och dchub: i Direct Connect.

URL-design

Den del av en webbadressen som uppfattas som sökstig, filnamn och parametrar (”/w/index.php?title=Dator&action=edit”) i exemplet ovan tolkas av webbservern och behöver alltså inte betyda någonting visst. Det är ändå praxis att tolka den på vissa sätt och det är en fördel om webbadresserna konstrueras så att både administratörer och besökare kan dra slutsatser om webbplatsens logiska struktur, möjligen också dess fysiska struktur, utgående från dem.

Ett vanligt sätt att använda adressen är att låta den första delen vara en sökstig från en basadress till den fil som skall visas, till ett skript (datorprogram) som skall generera den önskade sidan eller liknande. Vilken basadress som skall användas beror ofta på den första delen av adressen. En eventuell parameterdel ges som indata åt programmet. En sådan struktur är lätt att tolka för dem som arbetar med webbservern. En annan modell är att låta adressen avspegla en logisk struktur, oberoende av hur filerna ligger på datorn. I bästa fall sammanfaller de båda i rätt stor utsträckning.

Då allt fler webbplatser använder databaser som inte är beroende av filträdet på datorns hårddisk, utan istället använder nycklar, är det rätt vanligt att adressen är en kod utan betydelse annat än inne i databasen. En sådan adress är svår att komma ihåg eller ens teckna ner och minsta misstag leder till att rätt resurs inte hittas. Därmed tvingas användaren ofta söka rätt på den önskade resursen med början från webbplatsens huvudsida, vilket ibland är avsikten.

Ett speciellt problem är då webbplatsen omorganiseras eller serverprogramvaran byts ut. Ofta är resultatet länkröta, att adresser till webbplatsen i "bokmärken" och runt kring Internet upphör att fungera. Genom att adresserna ursprungligen valts enligt ett logiskt schema gör man det enklare att omdirigera dem till rätt sida efter ändringen.

URL-kodning

Engelska bokstäver A–Z och a–z, siffror 0–9 samt tecknen - _ . ~ kan användas fritt som de är i en URL. Övriga tecken i en URL måste URL-kodas för att överföras korrekt. Det gäller dels reserverade tecken som har speciell betydelse i en URL, såsom & # / ? +, dels alla övriga tecken. Vill man använda dessa (t.ex. för att de ingår i ett filnamn) måste de kodas med ett procenttecken och två hexadecimala siffror. För domännamnet gäller skilda regler för kodningen (se "internationella domännamn", IDN, och punycode).

För binära värden, som inte är text, kodar man byte för byte. För text, vilket är det vanligaste (mera specifikt är det oftast filnamn) måste man koda tecknen enligt rätt teckenkodning, så att servern hittar filen ifråga. Enligt den standard som gällt sedan 2005 använder man Unicode kodad med UTF-8. Det innebär en byte för ASCII-tecken (7-bits) och 2 bytes för (nästan alla) övriga latinska och kyrilliska tecken, och tre bytes för (nästan alla) övriga tecken. Sedan kodas varje byte med % och två hexadecimala siffror. Normalt sköts kodningen automatiskt av webbläsaren, åtminstone nyare webbläsare.

Servrar kan vara konfigurerade att använda en annan teckentabell, till exempel Latin-1. I så fall bör webbadressen alltid skrivas med %-kodning. Traditionellt undviker man helt enkelt tecken utöver US-ASCII, till exempel å,ä,ö. För att säkerställa en korrekt överföring av adressens tecken anges de enligt följande exempel:

Tecken Kod (Latin-1) Kod (unicode)
<space> %20 %20
% %25 %25
& %26 %26
, %2C %2C
å %E5 %C3%A5
ä %E4 %C3%A4
ö %F6 %C3%B6
ü %FC %C3%BC
Å %C5 %C3%85
Ä %C4 %C3%84
Ö %D6 %C3%96
æ %E6 %C3%A6
ø %F8 %C3%B8
é %E9 %C3%A9
ć finns ej %C4%87
œ finns ej %C5%93
finns ej %E8%8F%AF
Exempel: http://sv.wikipedia.org/wiki/Malmö bör skrivas som http://sv.wikipedia.org/wiki/Malm%C3%B6. Nyare webbläsare gör detta automatiskt.

När det gäller själva domännamnet används en annan nyare och mer kompakt standard, Punycode

Källor

  1. ^ Twenty years of a free, open web