Тёмный

Андрей Сальников - Индексы в PostgreSQL. Как понять, что создавать 

JPoint, Joker и JUG ru
Подписаться 53 тыс.
Просмотров 40 тыс.
50% 1

Ближайшая конференция - Joker 2024, 9 октября (Online), 15-16 октября, Санкт-Петербург
- -
Любой разработчик знает, что индексы - это мощный инструмент, который может улучшить работу запросов в базе данных и, как следствие, сократить отклик приложения или сервиса на внешние запросы.
Но опыт Андрея, как ДБА, показывает, что у разработчиков нет понимания, какой, когда и из каких соображений можно создавать индекс. Спикер приведет простые и понятные примеры, которые вы сможете легко повторить на своих реальных базах данных.
Скачать презентацию: squidex.jugru.team/api/assets...

Наука

Опубликовано:

 

13 окт 2022

Поделиться:

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист
Посмотреть позже
Комментарии : 55   
@jellyfish6265
@jellyfish6265 5 месяцев назад
сколько ж надо всякой хероты просмотреть, чтобы найти это гениальное видео
@esabkosabko4902
@esabkosabko4902 Год назад
Очень хороший доклад получился. С одной стороны простой, с другой хорошо структурирован и покрывает тему индексов с практической точки зрения. Спасибо, Андрей.
@pick-pock
@pick-pock Год назад
Докладчик не очень быстрый, тк не хватает индекса
@mgsfdgsfdgsgssdgrsdgdrgsr16
@mgsfdgsfdgsgssdgrsdgdrgsr16 29 дней назад
Отличный доклад, информативный, без воды. На 1.75 хорошо слушается.
@user-mc5ew1db2p
@user-mc5ew1db2p Год назад
Очень классный доклад, спасибо Андрею Сальникову за доклад!
@gregoryrubies6045
@gregoryrubies6045 6 месяцев назад
"Ты считаешь себя умнее базы данных?" - лучший ответ, по моему )
@user-bl2zs2vt5s
@user-bl2zs2vt5s Год назад
Спасибо, Андрей!
@twentxx
@twentxx Год назад
Спасибо, Андрей! 👍
@Narryel
@Narryel 7 месяцев назад
Крутой доклад, спасибо Андрею!
@hhh-sn2kj
@hhh-sn2kj 3 месяца назад
офигенный доклад. Спасибо!
@stanislavzemlyakov5442
@stanislavzemlyakov5442 Год назад
Максимально интересно.
@maxx27i
@maxx27i 11 месяцев назад
Спасибо за знания! Очень полезный доклад! 🔥
@Alex-qy5mh
@Alex-qy5mh 4 месяца назад
Очень добротный доклад, все по существу
@3dvfx1
@3dvfx1 7 месяцев назад
Андрей, Вас очень приятно слушать, Вы объясняете очень доходчиво, большое спасибо! 🤝
@oleg_shulga
@oleg_shulga 2 месяца назад
Спасибо за видео. Очень хороший доклад.
@user-jg9bm6ft3q
@user-jg9bm6ft3q 2 месяца назад
Супер-доклад, раскрываются неочевидные моменты.
@eugenevodyanko4641
@eugenevodyanko4641 Месяц назад
Доклад, конечно, достойный. Но явно вводит в заблуждение пример с idx(created,state) - это эффективно будет работать только в частном случае распределения данных. В общем случае (и для разных СУБД), для реализации очереди или Top-N вариант с idx(state,created) будет гораздо более предсказуемым. Здесь явно не хватило подробных планов и сравнений. Кроме того, если таблица очень волотильная, то статистика может показывать «мультики», иногда ее следует отключить или «заморозить», чтобы оптимизатор не оптимизировал под «вчерашний день».
@greenbear8179
@greenbear8179 6 месяцев назад
прекрасный доклад
@Nfix106
@Nfix106 28 дней назад
Хороший доклад, спасибо!
@andreymironov697
@andreymironov697 2 месяца назад
Очень содержательно! Жаль, что Андрею не предоставили больше времени
@bit_happens_
@bit_happens_ 10 месяцев назад
Спасибо!!!
@antonmuzeev
@antonmuzeev 6 месяцев назад
Блин! Век живи, век учись! Буквально недавно прошёл курс от Postgres Pro по оптимизации запросов и смотря этот доклад, про себя думаю "Наверно мало чего нового узнаю"... А НЕТ! Очень крутой момент по индекс на ForeignKey. Я знал, что его нужно создавать, если планируется делать JOIN, но про кейс с удалением каскадом вообще не думал. За это огромное спасибо!
@user-hq6nm2tf6j
@user-hq6nm2tf6j 2 месяца назад
Не понял немного пример по индексу, где мы создали по (дата, state). Если я захочу выбрать не обработанные транзакции по state, то индекс не будет работать. Чтобы работал мне надо в запросе использовать дату. А как я узнаю с какой даты у меня начинаются необработанные транзакции не используя для этого дополнительный запрос?
@SARFEX
@SARFEX 4 месяца назад
Полезно ❤
@user-lv3hn6uz4e
@user-lv3hn6uz4e Год назад
Почему сказано что VACUUM не чистит индексы? Это конечно можно отключить и он их реже чистит чем таблицу, но чистит и можно явно указать чтобы чистил всегда.
@MrAlexandrStv
@MrAlexandrStv 3 месяца назад
топчик
@Romerosmr
@Romerosmr 4 месяца назад
Интересный разбор, только надо было всетаки по просьбе Владимира включить buffers в analyze. Тогда стало бы видно, что если первым полем в составном индексе сделать поле которое с критерием на равенство (статус), а вторым интервальный критерий (дату), то было бы меньше чтений блоков индекса, т к плотность нужных данных в листьях индекса была бы выше и соотв такой вариант эффективнее... и что ценно для ДБА - меньший IO
@22222222222222223464
@22222222222222223464 9 месяцев назад
на 49:00 разве нахождение дубликатов в btree, которое внесли в 13 версию не сделает эту работу за нас?
@danku3498
@danku3498 5 месяцев назад
Доклад интересный и полезный, спасибо! В целом со всеми моментами в видео согласен, но есть дополнение о котором не было сказано, нужно учитывать типы данных при его создании и текущий пример с фруктами можно было улучшить если сделать таблицу типов фруктов, ее id будет иметь маленький целый тип и индекс по двум прям будет значительно меньшего объема, а также чем меньше тип поля в индексе тем и объем меньше и стоимость его использования ниже..
@jellyfish6265
@jellyfish6265 5 месяцев назад
запили свое видео, посмотрим сколько будет просмотров
@crazym8nd
@crazym8nd 20 дней назад
я как будто на лмампочку смотрел от этих флешбнгов на фоне
@vladimir.kravets
@vladimir.kravets Год назад
Если в исходном запросе (слайд 10) убрать limit, то разве перевернутая версия "от dba" будет адекватно работать? Мне кажется этот момент как-то очень не явно обозначен и, думаю, именно по этому вызвал много вопросов во время самого доклада. Тут ведь риск, что люди после доклада могут побежать переворачивать "как dba" там где надо и где не надо.
@ogyct
@ogyct 11 месяцев назад
Многое не знал. Спасибо за доклад. Если честно, до сих пор не понимаю, в чем смысл индекса по ПК, ведь это всегда уникальные значения.
@oleglevin7742
@oleglevin7742 11 месяцев назад
Для поддержки уникальности нужна проверка, занято ли значение ПК, то есть выполняется поиск. А чтобы поиск был быстрым, нужен индекс.
@ogyct
@ogyct 11 месяцев назад
@@oleglevin7742 а как индексирование ускорит поиск по уникальным величинам? Я всё время себе представлял индекс как из энциклопедий, где для одного слова выписаны страницы, где оно встерчается
@ogyct
@ogyct 11 месяцев назад
хотя вроде уже понял, индекс это упорядоченный список, поэтому поиск по нему быстрее. Поправьте если ошибаюсь.
@oleglevin7742
@oleglevin7742 11 месяцев назад
​@@ogyct если говорить про b-деревья, на которых обычно строятся индексы, то принцип поиска и правда такой же, как бинарный поиск. Но структура - это, понятное дело, дерево :) То есть, оно состоит из узлов, каждый из которых хранит набор ключей и ссылки на дочерние узлы. Ключи в каждом узле отсортированы. Пара соседних ключей задает границы диапазона ключей дочернего узла. Применительно к базам данных рассмотрим два этапа: поиск ключа в узле и переход к следующему узлу. - Поиск ключа в узле быстрый, так как узел уже в оперативной памяти. Должно быть тут используется бинарный поиск. - Переход к дочернему узлу медленный, так как нужно читать с диска (если индекс не влез в оперативную память). Где-то видел, что обычно узлы хранят от 50 до 2000 ключей. То есть узлы крупные, зато дерево небольшое в высоту. Соответственно, количество чтений с диска сильно меньше, чем если бы использовались другие деревья поиска или просто упорядоченный список.
@user-007-1
@user-007-1 9 месяцев назад
Не совсем понял - зачем создавать индекс на поле created_at, да ещё и ставить его первым? Мы же выбираем записи с совсем другим полем
@pashk1ns
@pashk1ns 2 месяца назад
Для кейса из презентации подходит пример из доки: Важный особый случай представляет ORDER BY в сочетании с LIMIT n: при явной сортировке системе потребуется обработать все данные, чтобы выбрать первые n строк, но при наличии индекса, соответствующего столбцам в ORDER BY, первые n строк можно получить сразу, не просматривая остальные вовсе.
@IlyaMatveev
@IlyaMatveev 8 месяцев назад
5:26, oltp голосом, на слайде опечатка (olpt) Online Transaction Processing
@jellyfish6265
@jellyfish6265 5 месяцев назад
охуенный доклад
@walcermelodia
@walcermelodia Год назад
лол докладчик родственник олега тинькова?
@outlaw4Iife
@outlaw4Iife 3 месяца назад
постгресовый ведьмак
@crypto338
@crypto338 7 месяцев назад
Вот так наслушаешься этих горе докладчиков. И потом индексы не правильно работают. Индекс по двум полям будет работать, только по первому полю и обеим но не по второму.
@crypto338
@crypto338 7 месяцев назад
pg_stats показывает частоту вхождения только включенной настройке в конфиге.
@user-hq6nm2tf6j
@user-hq6nm2tf6j 2 месяца назад
кстати согласен. это очень важный момент должен быть был озвучен в докладе. что порядок очень важен и потом как используется в where. Даже в его примере не используется дата, т.к. будут выбираться не обработанные транзакции, там нет смысла включать дату, если только не разбивать по каким-то группам дат, если транзакций таких очень много. Но тогда лучше уже по лимит их брать и обрабатывать
@QWERTYQWERTY-ev2vr
@QWERTYQWERTY-ev2vr 2 месяца назад
Кто от соера лайк
@kaibrakhmanyelubay2671
@kaibrakhmanyelubay2671 7 месяцев назад
Человек который берет интервью неуважителен
@user-hq6nm2tf6j
@user-hq6nm2tf6j 2 месяца назад
тоже это заметил, но его попустили, когда сказали, что он считает себя умнее postgress.
@sobahuy
@sobahuy 2 месяца назад
этот человек один из коммитеров в jdbc postgres
@user-hq6nm2tf6j
@user-hq6nm2tf6j 2 месяца назад
@@sobahuy и что это ему дает?
@110177019
@110177019 3 дня назад
Андрюша складно рассказывает, но грубиян неотёсанный.
Далее
Реинкарнация
00:47
Просмотров 588 тыс.
Валерий Бабушкин "ML System Design"
1:13:17
Вот ЗАЧЕМ здесь ВОДЯНКА?
1:00
Просмотров 212 тыс.
Вот ЗАЧЕМ здесь ВОДЯНКА?
1:00
Просмотров 212 тыс.
Apple. 10 Интересных Фактов
24:26
Просмотров 86 тыс.