URL: определение и области применения

С самого начала существования Интернета URL предоставляют единый метод четкой идентификации сетевых ресурсов: URL — стандарт RFC с 1994 года — предоставляет пользователям Интернета общий синтаксис, позволяющий локализовать и извлекать публичный контент по запросу. Это делает URL одной из самых основных технологий Интернета. Пользователи Интернета могут ежедневно использовать URL для доступа к ресурсам через браузер, и это не ограничивается только обращением к веб-страницам.

В этой статье мы познакомим вас со структурой, лежащей в основе URL, и уделим внимание ключевым областям применения.

Что такое URL-адрес?

Аббревиатура «URL» расшифровывается как «Uniform Resource Locator». Это подвид унифицированных идентификаторов ресурсов (URI). Структура URL также соответствует синтаксису URI.

Идентификаторы позволяют находить ресурсы с помощью уникального идентификатора как локально, так и по всему миру в Интернете. Как подвид «идентификатора», URL иногда используется как взаимозаменяемое понятие с термином «интернет-адрес». Это связано с основным назначением URL: адресация веб-страниц. Однако URL не ограничиваются только этой функцией. Например, файлы в локальной файловой системе могут быть локализованы с помощью URL. Это означает, что каждый интернет-адрес является URL, но не каждый URL является интернет-адресом.

Определение

Аббревиатура URL расшифровывается как «Uniform Resource Locator». URL позволяет однозначно определять адрес ресурсов и запрашивать их по мере необходимости. Например, пользователи Интернета используют URL в браузере для доступа к веб-страницам из адресной строки или для загрузки файлов.

Структура URL

Каждый URL состоит из формулы и части, специфичной для формулы: 

  • Формула: формула URL определяет как вид ресурса, так и метод, необходимый для доступа к нему. URL часто имеет то же имя, что и протокол доступа на уровне приложения. Общими формулами являются mailto, file, ftp или http/https.
  • Специфическая часть формулы: в зависимости от вида формулы, специфическая часть URL состоит из нескольких сегментов, которые содержат местоположение ресурса, а также необязательные параметры обработки.

Разделителем между формулой и конкретной частью формулы является двоеточие. В зависимости от формулы, вам также могут понадобиться две косые черты, которые широко использовались на заре интернета, но сегодня не имеют конкретной функции. 

URL основан на следующем синтаксисе URI:

Scheme:[//[user[:password]@]host[:port]][/path][?query][#fragment]

Каждый сегмент конкретной части формулы имеет свою функцию. Разделы «пользователь», «пароль», «хост» и «порт» называются «авторитетами». Авторитет указывает, на каком компьютере можно найти ресурс и какое имя ему присвоено.

  • пользователь и пароль: разделы пользователь и пароль содержат имя пользователя и пароль лица, имеющего право доступа к ресурсу, и разделяются двоеточием. Оба данных требуются только в том случае, если ресурс запрашивает аутентификацию. Имя пользователя и пароль отделяются знаком @ от сегмента URI хоста
  • host: сегмент URI host обычно включает Домен, включающий домен верхнего, второго и третьего уровня, указывающий, какой конкретный хост должен получить ресурс. В качестве альтернативы имя компьютера может быть указано в виде IP-адреса
  • порт: указав номер порта, вы можете управлять определенным портом TCP/IP в сети. Поскольку большинство формул уже имеют стандартный порт, отдельная запись необязательна. Например, стандартными портами являются 80 для HTTP, 443 для HTTPS или 21 для FTP. Номер порта следует указывать только в том случае, если общий порт не определен или если для стандартных передач используется порт не по умолчанию. Номер порта отделяется от раздела хоста двоеточием.

Домен «authority» обычно указывается в человекочитаемой форме. Компьютеры, с другой стороны, работают с IP-адресами. Посещение веб-сайта требует промежуточного шага, незаметного для пользователя: разрешение имени на основе системы доменных имен (DNS).

Примечание

DNS относится к сетевой службе на базе IP, которая отвечает за разрешение доменного имени в IP-адресе. Интернет-провайдеры требуют наличия DNS-сервера. Когда пользователь Интернета посещает веб-страницу, его маршрутизатор сначала направляет запрос на ответственный DNS-сервер. Затем DNS-сервер ищет подходящий IP-адрес для запрашиваемого домена и отправляет его обратно. После того как маршрутизатор получил выбранный IP-адрес, можно обратиться к соответствующему веб-серверу.

За авторитетом URI следует указание на то, где ресурс расположен на компьютере, а также необязательные компоненты: строка запроса и идентификатор фрагмента.

  • путь: путь сегмента URI содержит ссылку на файл ресурса и раскрывает его местоположение на целевом компьютере. Путь к файлу всегда начинается со слэша (/)
  • запрос: некоторые веб-сайты содержат исполняемые компоненты и, в дополнение к пути к файлу, ожидают «строку запроса» (также называемую частью запроса). Она включает параметры (например, вводимые пользователем), которые передаются вместе с URL и обрабатываются сервером. Это характерно для динамических веб-страниц, которые создаются только в момент извлечения данных из базы данных. Строка запроса всегда начинается со знака вопроса (?).
  • фрагмент: если необходимо сослаться на определенное место в ресурсе, URI заканчивается идентификатором фрагмента. Он разделяется хэштегом (#) и обычно ссылается на метку, однозначно идентифицируемую индексом в HTML-документе — например, подзаголовок.

Элементы синтаксиса URI, которые содержит URL, зависят от формулы. Построение URL определяется типом ресурса. Следующий список включает наиболее распространенные типы URL:

http

Веб-страницы извлекаются с помощью протокола HTTP (Hypertext Transfer Protocol) или HTTPS (Hypertext Transfer Protocol over SSL). Последний передает данные по защищенному соединению, и структура URL-адресов одинакова для обоих протоколов.

При получении URL-адреса обычно не требуется аутентификация. Авторитет» включает только домен, с которого можно получить доступ к выбранному сайту. Имя пользователя и пароль опускаются.

mailto

Mailto — это формула URL для адресов электронной почты, которая позволяет операторам веб-сайтов включать гиперссылки на свой сайт. Когда пользователь интернета нажимает на ссылку mailto, большинство браузеров открывают программу электронной почты по умолчанию и новое окно электронной почты. Адрес электронной почты указывается в специфической части формулы и вводится в качестве адреса получателя в окне электронной почты. Пользователю не нужно самостоятельно запускать программу или передавать адрес электронной почты вручную.

В URL-адресах, включающих формулу mailto, адрес электронной почты адресата указывается в части, специфичной для формулы. Формула и специфическая часть формулы также разделяются двоеточием, исключая двойную косую черту. Используя строку запроса, вы можете установить заголовки почты для заполнения темы и текста письма, например.

файл

Формула file используется для вызова определенных файлов на вашем компьютере. Если вы введете правильный путь к файлу в качестве URL в адресную строку веб-браузера, он вызовет запрашиваемый каталог или файл.

Поскольку файл формул ссылается на локальный ресурс, спецификация полномочий опускается. Путь к файлу всегда начинается со слэша. В результате получается URL с тремя последовательными косыми чертами.

ftp

URL-адреса, имеющие формулу FTP (File Transfer Protocol), позволяют получить доступ к файлам, расположенным на другой машине (удаленный доступ). Для передачи используется одноименный протокол передачи файлов FTP.

Пользователь, который хочет получить доступ к файлам в удаленной файловой системе с помощью FTP, обычно должен пройти аутентификацию. Поэтому URL-адреса, ссылающиеся на ресурсы FTP, обычно содержат данные доступа (имя пользователя и пароль).

Допустимые символы в URL

Стандарт URL поддерживает только ограниченный набор символов, состоящий из отдельных символов Американского кода для обмена информацией (ASCII). Кроме того, различные символы уже имеют определенные функции, такие как идентификация отдельных сегментов и последующее разложение или обработка URL.

Следующие символы уже наделены определенными функциями в стандарте URL:

: / ? # [ ] @ $ & ' ( ) * + , ; = 

Например, вопросительный знак (?) инициирует строку запроса. Различные параметры в строке запроса разграничиваются амперсандом (&). Разделителем между именем и значением параметра является знак равенства (=). Хеш (#) инициирует метку перехода.

Символы без предопределенной функции включают все буквы и цифры, а также специальные символы, упомянутые ниже:

A-Z, a-z
0-9
- . _ ~

Кроме перечисленных здесь символов ASCII, в URL-адресах теперь могут использоваться символы, не являющиеся символами ASCII, которые должны быть переписаны. Также можно переписать один из зарезервированных символов, чтобы предотвратить интерпретацию его предопределенного значения. Для преобразования символов ASCII стандарт URL использует маскирующий символ % (процент) и таблицу значений ASCII в шестнадцатеричной нотации. Не ASCII-символы также переписываются с использованием процентного представления. RFC 3986 рекомендует ASCII-совместимое кодирование на основе UTF-8. Эта рекомендация не является обязательной, и поставщики услуг в конечном итоге решают, какая кодировка будет использоваться.

В отличие от этого, специальные символы домена преобразуются в ASCII-совместимые строки с помощью punycode. Подробнее о кодировке с помощью punycode читайте в нашей статье о международных доменных именах.

Совет

Бесплатный кодировщик URL доступен на сайте веб-консультанта Эрика А. Мейера.

Разница между абсолютными и относительными URL-адресами

URL-адреса могут быть абсолютными или относительными. Абсолютные URL являются универсально действительными и включают все сегменты, необходимые для данной формулы. Относительные URL, с другой стороны, действительны только в определенных контекстах и наследуют от них определенные свойства, так что соответствующие разделы URL становятся избыточными и могут быть опущены. Информация, которую предоставляет контекст, включает в себя протокол, домен или даже путь к ресурсу.

Относительные URL используются в гиперссылках веб-страниц, которые ведут на разные подстраницы сайта. URL ссылки — это данные веб-страницы, на которую она ведет.

В следующих примерах показана ссылка с www.example.org/index/page1 на www.example.org/index/page2 с абсолютным или относительным URL.

 

Гиперссылка с абсолютным URL:

<a href="http://www.example.org/index/seite2">Linktext</a>

Гиперссылка с относительным URL:

<a href="/index/seite2">Linktext</a>

Относительные URL имеют то преимущество, что они значительно короче и способствуют упорядоченности и ясности исходного кода. Кроме того, гиперссылки с относительными URL облегчают перенос домена. Если домен сайта меняется, его необходимо вручную заменить на внутреннюю ссылку с абсолютным URL или перенаправить с помощью редиректов. Эти усилия не нужны для относительных URL, которые не имеют «авторитета» и, следовательно, не нуждаются в информации о домене.

Оцените статью
cdelat.ru
Добавить комментарий