Что такое метаданные?

Термин «метаданные» уже несколько лет у всех на устах. Сегодня миллиарды людей во всем мире пользуются цифровыми медиа. При этом постоянно генерируются большие объемы метаданных. Термин «прозрачный гражданин» иногда используется для описания возникающего риска защиты данных.

Оценка метаданных искусственным интеллектом позволяет делать прогнозы о поведении людей. В перспективе это представляет серьезную угрозу для частной жизни граждан и для демократии на практике. Однако метаданные не являются чем-то плохим. В этой статье мы объясним, что такое метаданные на самом деле.

В чем разница между метаданными и данными?

Определение

Метаданные: Этот термин относится к информации, которая дополняет фактические данные. Часто метаданные предоставляют более подробную информацию о контексте содержимого или дают инструкции по работе с данными. Таким образом, метаданные играют важную роль как в вычислительной технике, так и в традиционной обработке данных (включая такие вещи, как библиотечные каталоги или почтовая система).

Чтобы лучше понять термин «метаданные», представьте себе простой пример: Вы отправляете письмо по почте. Теперь документ, находящийся в конверте, соответствует фактическим, первичным данным. Эти данные являются частными и защищены законом от доступа третьих лиц — действует тайна переписки.

Конверт содержит метаданные письма. Это дополнительные данные, которые сопровождают первичные данные:

  • адрес и отправитель
  • штемпель и почтовая марка
  • При необходимости, дополнительные идентификаторы, например, штрих-коды.

Как видите, в целом это данные, которые делают отправку письма возможной в первую очередь. Метаданные письма видны любому человеку. Это означает, что оно не защищено особой тайной переписки, хотя почтовая тайна все же действует.

Итак, какую опасность представляют метаданные? Это не проблема, если отдельные метаданные могут быть прочитаны. Если, например, третья сторона узнала о существовании отдельного конверта, это обычно не вызывает беспокойства. Однако все меняется, когда речь идет о большем количестве данных, как в случае с массовым хранением данных и их оценкой. В больших масштабах возникают закономерности, которые многое раскрывают о поведении человека: Кто с кем и когда общался? Можно выявить сети и цепочки общения.

Различие между данными и метаданными подвижно. Классификация зависит от контекста и перспективы. Вот еще один пример. Книга содержит первичные данные, такие как название книги и ее содержание. Кроме того, для публикации книги имеется набор метаданных:

  • Автор
  • Издательство
  • Время и место публикации книги
  • Издание
  • ISBN

Представим, что метаданные многих публикаций собраны в базе данных. Что касается такой базы данных, то информация о публикации была бы первичными данными. Кроме того, для каждой публикации будет существовать новый набор метаданных. Например, для каждой публикации база данных могла бы хранить информацию о том, когда была добавлена запись и каким пользователем.

Какие типы метаданных существуют и как они используются?

Метаданные встречаются во всех областях хранения и обработки данных. Использование метаданных невозможно описать однозначно. Вот три основные области использования:

1. Обеспечение контекста для информации.

Метаданные часто описывают процесс, который привел к созданию информации. Подумайте, например, о географических координатах, которыми помечены цифровые фотографии. Контекст — после его утраты — не может быть восстановлен, поэтому он сохраняется.

2. Предоставление информации, которую иначе было бы трудно найти.

В данном случае речь идет о длительности видео. Эта продолжительность встроена в видеофайл в виде таймера. Если не сохранить длительность видео, ее придется вычислять. Возможным подходом было бы подсчитать количество кадров и разделить его на частоту кадров — относительно большое усилие.

3. Связывание информации, делающее ее легко извлекаемой и доступной для поиска.

Основная цель здесь — поддержать человекочитаемую информацию машиночитаемыми данными. Цель заключается в использовании автоматизированных процессов для установления взаимосвязей между частями информации. В частности, структурированные данные, которые при соединении создают так называемую «семантическую паутину».

Метаданные, описывающие изображения

Изображения, сделанные с помощью цифровых камер и смартфонов, содержат большое количество метаданных. С одной стороны, это технические данные, такие как размеры изображения, используемая камера, фокусное расстояние и т. д. Эти факторы определены в стандарте EXIF и создаются камерой автоматически. Кроме того, стандарт IPTC определяет метаданные, которые описывают содержание фотографии и вводятся пользователем.

Стандарт Метаданные изображения Создание
EXIF Информация об изображении, такая как размеры, цветовое пространство, цветовые каналы и т.д.; фотографическая информация, такая как время экспозиции, диафрагма, ISO и т.д. Автоматически при записи
IPTC Ключевые слова, авторские права, информация о местоположении и времени, содержимое DeepL и т.д. Вручную пользователем

При обмене цифровыми изображениями следует быть осторожным: метаданные изображения могут содержать частную информацию об авторе. Многие приложения и социальные сети автоматически очищают изображения при их загрузке. Но лучше не полагаться на это. В некоторых случаях лучше использовать специальный инструмент для удаления информации об изображении.

Метаданные, встроенные в цифровое видео

Видеофайл обычно состоит из контейнера, в котором хранятся различные данные. Основные данные видео включают в себя закодированное видео и аудио содержимое. Дополнительные метаданные включают в себя:

  • длина видео
  • скорость передачи данных и размеры изображения
  • сведения об используемом аудио- и видеокодеке
  • Субтитры, если применимо, на разных языках

Метаданные, которые присваиваются файлам

Файл в цифровой системе включает в себя две основные части данных: содержимое файла и его имя. Кроме того, каждый файл имеет набор метаданных, связанных с ним. Метаданные файла управляются операционной системой и также известны как «атрибут файла». Ниже приведен обзор распространенных метаданных файла:

Метаданные файла Описание
Временная метка Для создания, изменения и последнего открытия файла
Место сохранения Путь к файлу в системе данных
Владение Владелец и группа
Разрешения на файл Чтение, право, выполнение: для пользователей, групп и др.

В дополнение к атрибутам файлов некоторые типы файлов содержат специфические метаданные. Они управляются соответствующим приложением. Даже при наличии этих метаданных существует риск раскрытия конфиденциальной информации при совместном использовании.

Метаданные, создаваемые при отправке электронного письма

Электронное письмо включает в себя — по аналогии с классическим почтовым письмом — две ключевые части:

  • тело электронного письма
  • заголовок электронного письма

Тело содержит собственно сообщение, которое соответствует документу в конверте. Как и конверт, заголовок содержит адреса отправителя и получателя. Как и в случае с конвертом, некоторую информацию в заголовке можно легко подделать. Для получателя создается впечатление, что письмо пришло от другого отправителя. Этот трюк часто используется в поддельных атаках.

Заголовок электронного письма обычно содержит множество других метаданных, таких как:

  • различные временные метки
  • информация о форматировании и кодировании сообщения
  • Этапы, через которые прошло письмо во время передачи
  • Оценка письма спам-фильтрами
  • Информация о том, проверялось ли письмо антивирусным сканером.

Метаданные заголовка электронного письма записываются и считываются серверным программным обеспечением и прикладными программами. Информация, полученная в ходе этого процесса, позволяет многое узнать об электронном письме и пути, пройденном им через Интернет. Среди прочего, можно сделать заявление о подлинности и конфиденциальности электронного письма. Кроме того, заголовок может содержать имя хоста собственного устройства пользователя и раскрывать место, откуда было отправлено письмо.

Метаданные, которые генерируются при посещении веб-сайта

С технической точки зрения посещение веб-сайта — это получение HTML-документа. Браузер пользователя получает документ с сервера по указанному адресу. Для этого используется протокол HTTP или HTTPS.

В дополнение к собственно HTML-документу, который отображается в браузере, передаются метаданные, известные как HTTP-заголовки. HTTP-заголовки сравнимы с полями заголовка электронного письма. Они содержат информацию о кодировке, передаче, шифровании и сжатии HTTP-соединения.

Кроме того, во время передачи генерируются метаданные, которые накапливаются на сервере. К ним относятся журнальные файлы, в которых регистрируются обращения к серверу и которые необходимы для анализа журнальных файлов. При каждом обращении в лог-файл записывается еще одна строка. Кроме того, браузер обычно посылает дополнительные запросы к серверу DNS. Метаданные также генерируются и, возможно, хранятся и оцениваются оператором сервера.

Смущает то, что в дополнение к уже упомянутому заголовку HTTP существует также заголовок HTML. В то время как первый относится к соединению, второй содержит метаданные, описывающие содержимое документа. Ниже приведен обзор ответа сервера HTTP. Вводные строки — это заголовок HTTP. За ним следует исходный код HTML с элементами HTML head и HTML body:

HTTP/1.1 200 OK
Date: Mon, 01 Feb 2021 12:13:34 GMT
Content-Type: text/html; charset=UTF-8
Content-Length: 148
Last-Modified: Wed, 08 Jan 2003 23:11:55 GMT
Server: Apache/1.3.3.7 (Unix) (Red-Hat/Linux)
Accept-Ranges: bytes
Connection: close

<html>
  <head>
    <title>An Example Page</title>
  </head>
  <body>
    <p> The human readable text is in the body of the document</p>
  </body>
</html>

Что метаданные означают для интернет-маркетинга и поисковой оптимизации

В этом разделе мы сосредоточимся на метаданных, которые встроены в HTML-документ. Мы опустим уже упомянутые метаданные HTTP, а также метаданные на стороне сервера, такие как файлы журналов. Обычно метаданные HTML встраиваются в шапку HTML-документа.

Многие из элементов, используемых в заголовке HTML, непосредственно используются для оптимизации поисковых систем. Боты поисковых систем просматривают содержимое HTML-документа. Человекочитаемая часть, присутствующая в теле HTML, извлекается и индексируется. Кроме того, существуют специальные метаданные, предназначенные исключительно для ботов. Здесь мы различаем «классический» и «современный» варианты.

Метаданные сайта, иллюстрируемые классическими элементами HTML head

Классические элементы заголовка HTML включают заголовок и несколько важных метатегов. Заголовок также виден пользователю в различных формах. Например, он отображается в закладках или в заголовке вкладки браузера. Остальные классические теги «<meta>» используются исключительно для поисковой оптимизации. Ниже приведен обзор наиболее важных классических элементов заголовка HTML:

Тег Описание Важность
<title> Название документа, отображаемое в результатах поиска Критический
<meta name=»description»> Описание документа, отображаемое в результатах поиска Критический
<meta name=»keywords»> Ключевые слова документа, не отображаются в результатах поиска Минимальный
<meta name=»robots»> Указания для ботов поисковых систем по обработке документа Критический

Метаданные сайта, отображаемые с помощью современных элементов HTML head

В дополнение к классическим элементам HTML head сегодня используется множество других элементов для включения метаданных на сайте. Операторы поисковых систем и крупные технологические группы постоянно определяют новые метаданные. Элементы «<meta>» и «<link>» идеально подходят для этого, поскольку их можно расширять. Ниже приведен обзор часто используемых современных метаданных веб-сайта:

Тег

Описание

Важность

<link rel=»canonical»>

Канонический тег во избежание дублирования контента

Критический, если дублированный контент существует

<link rel=»alternate» hreflang=»en»>

Предоставление альтернативных языковых версий одного и того же документа в соответствии с hreflang

Необязательно

<meta property=»og:…»>

Open Graph для публикации в социальных сетях

Необязательно

Для элемента «<meta>» атрибут «name» используется для указания конкретного типа метаданных. Для элемента «<ссылка>» аналогичным образом используется атрибут «rel». В зависимости от используемого стандарта метаданных, для элемента «<meta>» можно найти два альтернативных обозначения. Здесь мы приводим их краткое описание:

Как записывается Стандарт метаданных
<meta name=»»> HTML5
<meta property=»»> RDFa
<meta itemprop=»»> Микроданные HTML

Метаданные веб-сайта, определенные с помощью Open Graph

Open Graph — это протокол, разработанный компанией Google для обогащения веб-документа метаданными. Данные Open Graph содержат информацию, которая отображается в виде обзора, когда документом делятся в социальных сетях. Таким образом, можно указать оптимизированные изображения, заголовки и описательные тексты. Это имеет смысл, поскольку в зависимости от платформы действуют определенные ограничения по длине текстов, размерам изображений и т.п. Протокол широко используется Facebook и Twitter. Ниже представлен обзор основных метаданных Open Graph:

Метаданные Open Graph Пояснение
<meta property=»og:title»> Название объекта
<meta property=»og:type»> Тип объектов, например, изображение, веб-документ, видео и т.д.
<meta property=»og:image»> Изображение, представляющее объект
<meta property=»og:url»> Канонический URL-адрес объекта
Совет

Если вы обнаружили ошибки в своем веб-контенте при публикации на Facebook, проблема часто связана с неправильными записями Open Graph. В этом случае ошибку можно исправить простым приемом: войдите в свою учетную запись Facebook и попробуйте использовать Sharing Debugger. Это заставит Facebook заново считать информацию Open Graph.

Метаданные веб-сайта, определенные с помощью Rich Cards

Помимо Open Graph, Rich Cards — это еще один стандарт метаданных, разработанный Google. Rich Cards обогащает веб-документ структурированными метаданными. Например, веб-сайт ресторана может быть дополнен информацией о географическом положении, ценах, часах работы и т.д. Информация Rich Card может быть размещена в HTML head или в HTML body.

Технически Rich Card заимствованы из стандарта метаданных Schema.org. Для разметки метаданных используются различные форматы. Помимо старых стандартов, к которым относятся RDFa и microdata, сегодня также доступен JSON-LD. Использование JSON-LD даже официально рекомендовано Google.

Оцените статью
cdelat.ru
Добавить комментарий