URL

Версія від 08:49, 10 березня 2012, створена Spam cleanup script (обговореннявнесок) (Cleaning up links to custom-paper-writing.com)
(різн.) ← Попередня версія • Поточна версія (різн.) • Новіша версія → (різн.)

Історія

URL був винайдений Тімом Бернерсом-Лі в 1990 році в стінах Європейської ради з ядерних досліджень (фр. Conseil Européen pour la Recherche Nucléaire, CERN) у Женеві, Швейцарія. URL став фундаментальною інновацією в Інтернеті. Спочатку URL призначався для позначення місць розташування ресурсів (найчастіше файлів) у Всесвітній павутині. Зараз URL застосовується для позначення адрес майже всіх ресурсів Інтернету. Стандарт URL закріплений у документі RFC 1738, колишня версія була визначена в RFC 1630. Зараз URL позиціонується як частина більш загальної системи ідентифікації ресурсів URI, сам термін URL поступово поступається місцем більш широкому терміну URI. Стандарт URL регулюється організацією IETF і її підрозділами.

Структура URL

Спочатку локатор URL був розроблений як система для максимально спрощенї вказівки на місцезнаходження ресурсів у мережі. Локатор повинен був бути легко розширюваною і використовувати лише обмежений набір ASCII-символів (наприклад, пропуск ніколи не застосовується в URL). У зв'язку з цим, виникла наступна традиційна форма запису URL:

<Схема >://< логін>: <пароль> @ <хост>: <порт> / <URL-путь>? <Параметри> # <якір>

У цьому записі:
схема
схема звернення до ресурсу; в більшості випадків мається на увазі мережевий протокол
логін
ім'я користувача, використовуване для доступу до ресурсу
пароль
пароль указаного користувача
хост
повністю прописане доменне ім'я хоста в системі DNS або IP-адреса хоста у формі чотирьох десяткових чисел, розділених крапками; числа - натуральні в інтервалі від 0 до 255.
порт
порт хоста для підключення
URL-шлях
уточнююча інформація про місце знаходження ресурсу; залежить від протоколу.
параметри
рядок запиту з переданими на сервер (методом GET) параметрами. Роздільник параметрів - знак
&. Приклад:? Параметр_1 = значення_1 & параметр_2 = значення_2 & параметр3 = значення_3
якоря
ідентифікатор «якоря», що посилається на деяку частину (розділ) відкривається документа. На сьогоднішній день Тім Бернес-Лі визнає, що символ подвійної косої риси у структурі URL є надлишковим.

Адреси хост-комп'ютерів в мережі Інтернет можуть мати подвійну кодування:

  • Обов'язкове кодування, зручну для роботи системи телекомунікації в мережі: IP-адресу;
  • Необов'язкову кодування, зручну для абонента мережі: доменний DNS-адреса (DNS - Domain Name System).

Цифровий IP-адреса версії V.4 представляє собою 32-розрядне двійкове число. Для зручності він розділяється на чотири блоки по 8 біт, які можна записати в десятковому вигляді. Адреса містить повну інформацію, необхідну для ідентифікації комп'ютера. Зважаючи на величезну кількість підключених до мережі комп'ютерів і різних організацій відчувається обмеженість 32-розрядних IP-адрес, тому ведеться розробка модернізованого протоколу IP-адресації, що має на меті:

  • Підвищення пропускної здатності мережі;
  • Створення краще масштабується і адаптируемой схеми адресації;
  • Забезпечення гарантій якості транспортних послуг;
  • Забезпечення захисту інформації, переданої в мережі.

Основою нового протоколу V.6 є 128-бітові адреси, забезпечують понад 1000 адрес на кожного жителя землі. Впровадження цієї адресації зніме проблему дефіциту цифрових адрес. Проте головною метою розробки нового протоколу є не стільки розширення розрядності адреси, скільки збільшення рівнів ієрархії в адресі, що відбиває тепер 5 ідентифікаторів: два старших для провайдерів мережі (ідентифікатори провайдера та його реєстру) і три для абонентів (абонента, його мережі і вузла мережі) .

Доменний адреса складається з кількох, що відділяються один від одного крапкою буквено-цифрових доменів (domain - область). Ця адреса побудований на основі ієрархічної класифікації: кожен домен, крім крайнього лівого, визначає цілу групу комп'ютерів, виділених за якою-небудь ознакою, при цьому домен групи, що знаходиться зліва, є підгрупою правого домену. Всього в мережі зараз налічується більше 120 000 різних доменів.

Наприклад, географічні дволітерні домени деяких країн:

   * Австрія - at;
   * Болгарія - br;
   * Канада - са;
   * Росія - ru;
   * США - us;
   * Франція - fr.

Існують і домени, виділені за тематичними ознаками. Такі домени мають трибуквенне скорочена назва.

   * Урядові установи - gov.
   * Комерційні організації - com.
   * Навчальні заклади - edu.
   * Військові установи - mil.
   * Мережеві організації - net.
   * Інші організації - org.

Доменну адресу може мати довільну довжину. На відміну від цифрового адреси він читається в зворотному порядку. Спочатку вказується домен нижнього рівня - ім'я хост-комп'ютера, потім домени - імена підмереж і мереж, в яких він знаходиться, і, нарешті, домен верхнього рівня - найчастіше ідентифікатор географічного регіону (країни).

Перетворення доменної адреси у відповідний цифровий IP-адреса виконують спеціальні сервери DNS (Domain Name Server) - сервери імен. Тому користувачеві не потрібно знати цифрові адреси.

Але більш ефективно для адресації використовувати не просто доменну адресу, а універсальний локатор ресурсів - URL (Universal Resource Locator), який додатково до доменного адресою містить вказівки на використовувану технологію доступу до ресурсів і специфікацію ресурсу всередині файлової структури комп'ютера.

Наприклад, в URL http://www.engec.ru/user/lab/met.htm зазначені:

   * Http - протокол передачі гіпертексту, що використовується для доступу. У переважній більшості випадків у WWW використовується саме гіпертекстовий протокол;
   * Www.engec.ru - доменну адресу web-сервера. Адреси більшої частини серверів починаються з префікса www;
   * User / lab / met.htm - специфікація файлу met.htm. Вказується шлях у файловій системі комп'ютера та ім'я файлу. У цій частині адреси може бути вміщена і інша інформація, що відображає, наприклад, параметри запиту користувача і обробної запит програми. Якщо специфікація файлу не вказана, то користувачеві буде виданий файл, за замовчуванням призначений для представлення сервера (сайту).


Uniform Resource Locator.jpg
Перше поняття - URL. Що таке URL? URL (Uniform Resource Locator) - це унікальний адреса для доступу до інформаційних ресурсів в інтернеті (зокрема, до веб-сторінок). Якщо користувачеві відомий URL веб-сторінки, він може побачити її, задавши цей URL в адресному рядку браузера.

URL представляє собою текстову рядок без пробілів. У цьому рядку спочатку вказується метод доступу до ресурсу, тобто протокол доступу, потім адресу ресурсу в Мережі (ім'я домену і хост-машини) і, нарешті, повний шлях до файлу на сервері.

Формат url.jpg
Url.jpg
Що таке статичний URL

Статичний URL - це той, який не змінюється і зазвичай не містить URL параметрів. Він виглядет приблизно так:

   http://www.example.com/archive/january.htm

Статичні URL можна знайти в Google, використовуючи конструкцію filetype: htm. Для великих, часто оновлюваних сайтів: форумів, онлайн магазинів, блогів і систем управління контентом вебмайстра використовують динамічні URL. Що таке динамічний URL Якщо контент сайту збережений у базі даних і відображається на сторінках за запитом, тоді можуть використовуватися динамічні урли. У цьому випадку сайт складається тільки з шаблонів для контенту. Зазвичай динамічний URL виглядає приблизно так:

   http://code.google.com/p/google-checkout-php-sample-code/issues/detail?id=31

Google уважає, що якщо в урле є знаки?, =, &, Тоді це динамічний URL. Один з недоліків динамічного URL в тому, що можливий випадок дублювання контенту. Тобто урл з різними параметрами може привести до одного і того ж контенту. Це одна з причин, по якій вебмайстра реврайтят урли в статичні. Google рекомендує не переписувати динамічні URL в статичні У своєму пості гуглі говорять і підкреслюють не потрібно переформовувати динамічні URL, щоб вони виглядали статичними, але в той же час визнають, що "статичні URL може мати невелику перевагу в клікабельності (CTR) ". І знову ж таки говорять про те, що "динамічні URL мають привілеї над статичними ". Коротко резюміруюя їх статтю, можна зробити висновок, що вони активно рекомендують використовувати динамічні URL і не переписувати їх у статичні, аргументуючи це тим, що:

   * досить складно зробити правильним зміна динамічних URL в статичні
   * Googblebot може успішно індексувати динамічні URL й інтерпретувати різні параметри
   * при зміні URL ви можете позбавити бота цінних параметрів, що беруть участь в ранжируванні

Думки вебмайстрів про динамічних і статичних URL У коментарях до згаданої статті вебмайстра у великому числі висловлюють невдоволення, посилаючись на переваги статичних урлов. Однак працівники Google у відповідях заявляють, і правильно помічають, що блог для веб-майстрів, а не для SEOшніков і пост писався саме для цієї аудиторії. Дійсно, багато вебмастера далеко не є знавцями SEO і можуть наробити багато помилок при реврайте динамічних URL в статичні. Google намагається з одного боку допомогти вебмайстрам, а з іншого зробити свою пошукову видачу більш релевантною для користувача. Ренд Фішкін у своєму блозі висловлює думку про те, що Google дивиться на цю проблему з іншого ракурсу, як фахівець з маркетингу. Говорить про те, що Google не обманює або дізінформірует, а лише переймаються про найголовніше - ефективно і раціонально індексувати web і зберігати точні дані про контент сторінок. Переваги динамічних URL

   * зазвичай вони коротші
   * гугл (перший з 4-х головних пошукачів) говорить, що може їх ефективно індексувати

Недоліки динамічних URL

   * низький CTR в серп, в електронних листах, а також на форумах / блогах, де просто використовують копіпаст
   * велика веротяность обрізання кінцевої частини URL і в результаті отримання чотиреста четвертий помилки при копіпаст
   * низька релевантність ключового слова
   * майже неможливо написати вручну і поширювати на бізнес-картах або диктувати по телефону
   * дуже складно запам'ятовується або не запам'ятовується зовсім
   * користувач точно не знає, чого очікувати перед тим, як запросить сторінку
   * не оптимізовані для анкорного тексту (часто при копіпаст в блоги, форуми та ін)

Переваги статичних URL

   * високий CTR у пошукових результатах, електронних листах (email), на сторінках і т.д.
   * велика релевантність ключових словах
   * просто для копіювання, вставки, і розповсюдження онлайн та офлайн
   * легко запам'ятати і таким чином можна використовувати в брендінгу та офлайн медіа
   * користувач зараннее може інтуїтивно знати, що йому очікувати при введенні урла в браузері
   * можна чекати гарного анкорного тексту при використанні посилань у вигляді урла
   * всі 4 з головних пошукачів і безліч інших псів зазвичай працюють зі статичними URL набагато простіше, ніж з динамічними, особливо при великій кількості параметрів

Недоліки статичних URL

   * ви можете наплутати чого-небудь у процесі реврайта, що призведе до проблем отримання контенту користувачами і ботами


Схеми (протоколи) URL


Загальноприйняті схеми (протоколи) URL включають:
• ftp - Протокол передачі файлів FTP
• http - Протокол передачі гіпертексту HTTP
• https - Спеціальна реалізація протоколу HTTP, що використовує шифрування (як правило, SSL або TLS)
• gopher - Протокол Gopher
• mailto - Адреса електронної пошти
• news - Новини Usenet
• nntp - Новини Usenet через протокол NNTP
• irc - Протокол IRC
• prospero - Служба каталогів Prospero Directory Service
• telnet - Посилання на інтерактивну сесію Telnet
• wais - База даних системи WAIS
• xmpp - Протокол XMPP (частина Jabber)
• file - Ім'я локального файлу
• data - Безпосередні дані (Data: URL)
Екзотичні схеми URL:
• afs - Глобальне ім'я файлу у файловій системі Andrew File System
• cid - Ідентифікатор вмісту для частин MIME
• mid - Ідентифікатор повідомлень для електронної пошти
• mailserver - Доступ до даних з поштових серверів
• nfs - Ім'я файлу в мережевій файловій системі NFS
• tn3270 - Емуляція інтерактивної сесії Telnet 3270
• z39.50 - Доступ до служб ANSI Z39.50
• skype - Протокол Skype
• smsto - Відкриття редактора SMS в деяких мобільних телефонах
• ed2k - Файлообмінна мережа eDonkey, побудована за принципом P2P


Кодування URL

Поява адрес URL стало суттєвим нововведенням в Інтернеті. Проте з моменту його винаходу і до цього дня стандарт URL володіє серйозним недоліком - у ньому можна використовувати тільки обмежений набір символів, навіть менший, ніж в ASCII: латинські літери, цифри і лише деякі розділові знаки. Якщо ми захочемо використовувати в URL символи кирилиці, або ієрогліфи, або, скажімо, специфічні символи французької мови, то потрібні нам символи повинні бути перекодовані особливим чином.

У російськомовній Вікіпедії щодня доводиться бачити приклад кодування URL, оскільки російська мова використовує символи кирилиці. Наприклад, рядок виду:

http://ru.wikipedia.org/wiki/Микрокредит


кодується в URL як:

http://ru.wikipedia.org/wiki/%D0%9C%D0%B8%D0%BA%D1%80%D0%BE%D0%BA%D1%80%D0%B5%D0%B4%D0%B8%D1%82 Таке перетворення відбувається в два етапи: спочатку кожен символ кирилиці кодується в Юнікод (UTF-8) в послідовність з двох байтів, а потім кожен байт цієї послідовності записується в шістнадцятковому поданні:

М → D0 и 9C → %D0%9C

и → D0 и B8 → %D0%B8
к → D0 и BA → %D0%BA
р → D1 и 80 → %D1%80, и т. д.

Перед кожним таким шістнадцятковим кодом байта, згідно специфікації URL [2], ставиться знак відсотка (%) - звідси навіть виник англійський термін «percent-encoding», що позначає спосіб кодування символів в URL і URI.

Оскільки такого перетворення піддаються літери всіх алфавітів, окрім базової латиниці, то URL зі словами на переважній більшості мов (крім англійської, італійської, латинської) може втратити здатність сприйматися людьми. Це все входить у протиріччя з принципом інтернаціоналізму, провозглашаемого усіма провідними організаціями Інтернету, включаючи W3C і ISOC. Цю проблему покликаний вирішити стандарт IRI (англ. International Resource Identifier) - міжнародних ідентифікаторів ресурсів, в яких можна було б без проблем використовувати символи Юнікоду, і які тому не ущемляли б права інших мов. Хоча заздалегідь складно сказати, чи зможуть коли-небудь ідентифікатори IRI замінити настільки широковживаними URL (і URI в цілому).

Ініціатива PURL

Ще один кардинальний недолік URL полягає у відсутності гнучкості. Ресурси у Всесвітній павутині та Інтернеті переміщуються, а посилання у вигляді URL залишаються, вказуючи на вже відсутні ресурси. Це особливо болісно для електронних бібліотек, каталогів та енциклопедій. Для вирішення цієї проблеми було запропоновано постійні локатори PURL (англ. Persistent Uniform Resource Locator). По суті це ті ж URL, але вони вказують не на конкретне місце розташування ресурсу, а на запис в базі даних PURL, де, у свою чергу, записаний вже конкретний URL-адресу ресурсу. При зверненні до PURL сервер знаходить потрібну запис в цій базі даних і перенаправляє запит вже на конкретне місце розташування ресурсу. Якщо адресу ресурсу змінюється, то немає потреби виправляти всі незліченні посилання на нього - досить лише змінити запис у БД. На даний момент ця ідея не стандартизована і не має широкого розповсюдження.

Список використаних джерел

  1. http://wiki.fizmat.tnpu.edu.ua/index.php/URL
  2. http://richvibe.blogspot.com/2010/10/url.html
  3. http://denweb.ru/put-veb-mastera/osnovnye-ponyatiyaurl-cookies-kilobajty-i-kilobity-chast3.html