Андрей Сальников - Индексы в PostgreSQL. Как понять, что создавать

Подписаться 53 тыс.

Просмотров 40 тыс.

50% 1

Ближайшая конференция - Joker 2024, 9 октября (Online), 15-16 октября, Санкт-Петербург
- -
Любой разработчик знает, что индексы - это мощный инструмент, который может улучшить работу запросов в базе данных и, как следствие, сократить отклик приложения или сервиса на внешние запросы.
Но опыт Андрея, как ДБА, показывает, что у разработчиков нет понимания, какой, когда и из каких соображений можно создавать индекс. Спикер приведет простые и понятные примеры, которые вы сможете легко повторить на своих реальных базах данных.
Скачать презентацию: squidex.jugru.team/api/assets...

Наука

Опубликовано:

13 окт 2022

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист

Посмотреть позже

Комментарии : 55

@jellyfish6265 5 месяцев назад

сколько ж надо всякой хероты просмотреть, чтобы найти это гениальное видео

@esabkosabko4902 Год назад

Очень хороший доклад получился. С одной стороны простой, с другой хорошо структурирован и покрывает тему индексов с практической точки зрения. Спасибо, Андрей.

@pick-pock Год назад

Докладчик не очень быстрый, тк не хватает индекса

@mgsfdgsfdgsgssdgrsdgdrgsr16 29 дней назад

Отличный доклад, информативный, без воды. На 1.75 хорошо слушается.

@user-mc5ew1db2p Год назад

Очень классный доклад, спасибо Андрею Сальникову за доклад!

@gregoryrubies6045 6 месяцев назад

"Ты считаешь себя умнее базы данных?" - лучший ответ, по моему )

@user-bl2zs2vt5s Год назад

Спасибо, Андрей!

@twentxx Год назад

Спасибо, Андрей! 👍

@Narryel 7 месяцев назад

Крутой доклад, спасибо Андрею!

@hhh-sn2kj 3 месяца назад

офигенный доклад. Спасибо!

@stanislavzemlyakov5442 Год назад

Максимально интересно.

@maxx27i 11 месяцев назад

Спасибо за знания! Очень полезный доклад! 🔥

@Alex-qy5mh 4 месяца назад

Очень добротный доклад, все по существу

@3dvfx1 7 месяцев назад

Андрей, Вас очень приятно слушать, Вы объясняете очень доходчиво, большое спасибо! 🤝

@oleg_shulga 2 месяца назад

Спасибо за видео. Очень хороший доклад.

@user-jg9bm6ft3q 2 месяца назад

Супер-доклад, раскрываются неочевидные моменты.

@eugenevodyanko4641 Месяц назад

Доклад, конечно, достойный. Но явно вводит в заблуждение пример с idx(created,state) - это эффективно будет работать только в частном случае распределения данных. В общем случае (и для разных СУБД), для реализации очереди или Top-N вариант с idx(state,created) будет гораздо более предсказуемым. Здесь явно не хватило подробных планов и сравнений. Кроме того, если таблица очень волотильная, то статистика может показывать «мультики», иногда ее следует отключить или «заморозить», чтобы оптимизатор не оптимизировал под «вчерашний день».

@greenbear8179 6 месяцев назад

прекрасный доклад

@Nfix106 28 дней назад

Хороший доклад, спасибо!

@andreymironov697 2 месяца назад

Очень содержательно! Жаль, что Андрею не предоставили больше времени

@bit_happens_ 10 месяцев назад

Спасибо!!!

@antonmuzeev 6 месяцев назад

Блин! Век живи, век учись! Буквально недавно прошёл курс от Postgres Pro по оптимизации запросов и смотря этот доклад, про себя думаю "Наверно мало чего нового узнаю"... А НЕТ! Очень крутой момент по индекс на ForeignKey. Я знал, что его нужно создавать, если планируется делать JOIN, но про кейс с удалением каскадом вообще не думал. За это огромное спасибо!

@user-hq6nm2tf6j 2 месяца назад

Не понял немного пример по индексу, где мы создали по (дата, state). Если я захочу выбрать не обработанные транзакции по state, то индекс не будет работать. Чтобы работал мне надо в запросе использовать дату. А как я узнаю с какой даты у меня начинаются необработанные транзакции не используя для этого дополнительный запрос?

@SARFEX 4 месяца назад

Полезно ❤

@user-lv3hn6uz4e Год назад

Почему сказано что VACUUM не чистит индексы? Это конечно можно отключить и он их реже чистит чем таблицу, но чистит и можно явно указать чтобы чистил всегда.

@MrAlexandrStv 3 месяца назад

топчик

@Romerosmr 4 месяца назад

Интересный разбор, только надо было всетаки по просьбе Владимира включить buffers в analyze. Тогда стало бы видно, что если первым полем в составном индексе сделать поле которое с критерием на равенство (статус), а вторым интервальный критерий (дату), то было бы меньше чтений блоков индекса, т к плотность нужных данных в листьях индекса была бы выше и соотв такой вариант эффективнее... и что ценно для ДБА - меньший IO

@22222222222222223464 9 месяцев назад

на 49:00 разве нахождение дубликатов в btree, которое внесли в 13 версию не сделает эту работу за нас?

@danku3498 5 месяцев назад

Доклад интересный и полезный, спасибо! В целом со всеми моментами в видео согласен, но есть дополнение о котором не было сказано, нужно учитывать типы данных при его создании и текущий пример с фруктами можно было улучшить если сделать таблицу типов фруктов, ее id будет иметь маленький целый тип и индекс по двум прям будет значительно меньшего объема, а также чем меньше тип поля в индексе тем и объем меньше и стоимость его использования ниже..

@jellyfish6265 5 месяцев назад

запили свое видео, посмотрим сколько будет просмотров

@crazym8nd 20 дней назад

я как будто на лмампочку смотрел от этих флешбнгов на фоне

@vladimir.kravets Год назад

Если в исходном запросе (слайд 10) убрать limit, то разве перевернутая версия "от dba" будет адекватно работать? Мне кажется этот момент как-то очень не явно обозначен и, думаю, именно по этому вызвал много вопросов во время самого доклада. Тут ведь риск, что люди после доклада могут побежать переворачивать "как dba" там где надо и где не надо.

@ogyct 11 месяцев назад

Многое не знал. Спасибо за доклад. Если честно, до сих пор не понимаю, в чем смысл индекса по ПК, ведь это всегда уникальные значения.

@oleglevin7742 11 месяцев назад

Для поддержки уникальности нужна проверка, занято ли значение ПК, то есть выполняется поиск. А чтобы поиск был быстрым, нужен индекс.

@ogyct 11 месяцев назад

@@oleglevin7742 а как индексирование ускорит поиск по уникальным величинам? Я всё время себе представлял индекс как из энциклопедий, где для одного слова выписаны страницы, где оно встерчается

@ogyct 11 месяцев назад

хотя вроде уже понял, индекс это упорядоченный список, поэтому поиск по нему быстрее. Поправьте если ошибаюсь.

@oleglevin7742 11 месяцев назад

@@ogyct если говорить про b-деревья, на которых обычно строятся индексы, то принцип поиска и правда такой же, как бинарный поиск. Но структура - это, понятное дело, дерево :) То есть, оно состоит из узлов, каждый из которых хранит набор ключей и ссылки на дочерние узлы. Ключи в каждом узле отсортированы. Пара соседних ключей задает границы диапазона ключей дочернего узла. Применительно к базам данных рассмотрим два этапа: поиск ключа в узле и переход к следующему узлу. - Поиск ключа в узле быстрый, так как узел уже в оперативной памяти. Должно быть тут используется бинарный поиск. - Переход к дочернему узлу медленный, так как нужно читать с диска (если индекс не влез в оперативную память). Где-то видел, что обычно узлы хранят от 50 до 2000 ключей. То есть узлы крупные, зато дерево небольшое в высоту. Соответственно, количество чтений с диска сильно меньше, чем если бы использовались другие деревья поиска или просто упорядоченный список.

@user-007-1 9 месяцев назад

Не совсем понял - зачем создавать индекс на поле created_at, да ещё и ставить его первым? Мы же выбираем записи с совсем другим полем

@pashk1ns 2 месяца назад

Для кейса из презентации подходит пример из доки: Важный особый случай представляет ORDER BY в сочетании с LIMIT n: при явной сортировке системе потребуется обработать все данные, чтобы выбрать первые n строк, но при наличии индекса, соответствующего столбцам в ORDER BY, первые n строк можно получить сразу, не просматривая остальные вовсе.

@IlyaMatveev 8 месяцев назад

5:26, oltp голосом, на слайде опечатка (olpt) Online Transaction Processing

@jellyfish6265 5 месяцев назад

охуенный доклад

@walcermelodia Год назад

лол докладчик родственник олега тинькова?

@outlaw4Iife 3 месяца назад

постгресовый ведьмак

@crypto338 7 месяцев назад

Вот так наслушаешься этих горе докладчиков. И потом индексы не правильно работают. Индекс по двум полям будет работать, только по первому полю и обеим но не по второму.

@crypto338 7 месяцев назад

pg_stats показывает частоту вхождения только включенной настройке в конфиге.

@user-hq6nm2tf6j 2 месяца назад

кстати согласен. это очень важный момент должен быть был озвучен в докладе. что порядок очень важен и потом как используется в where. Даже в его примере не используется дата, т.к. будут выбираться не обработанные транзакции, там нет смысла включать дату, если только не разбивать по каким-то группам дат, если транзакций таких очень много. Но тогда лучше уже по лимит их брать и обрабатывать