Подключение к инстансу
Для подключения к инстансу ADB, воспользуйтесь инструкцией по подключению к инстансу базы данных.
Загрузка данных
После того, как выбран коннектор для подключения к базе данных и установлено соединение, можно приступать к загрузке данных.
Основным инструментом для загрузки данных в Greenplum и выгрузке данных из Greenplum является утилита gpfdist. Это http-сервер, с которым Greenplum разговаривает сразу всеми своими узлами, достигая большой скорости как загрузки, так и выгрузки данных.
Официальная документация gpfdist доступна на официальном ресурсе.
Для чего используется gpfdist? В Greenplum существует понятие external table (внешние таблицы), описание которых выглядит практически так же, как и у обычных таблиц, но в конце добавляется условие типа LOCATION (‘gpfdist://hostname:8080/database_name/table_name.csv’), которое указывает, где именно хранится файл, структура которого описана в external table. External table может быть либо для чтения, либо для записи.
Если external table создается для чтения, то, во-первых, вместо имени файла можно использовать маску (то есть, можно прочитать или загрузить сразу много файлов), а во-вторых, можно читать из заархивированных файлов (.gz, .zip или .bz2), что существенно увеличивает скорость чтения и загрузки файлов, поскольку чтение данных с дисков уменьшается во много раз по сравнению с чтением незаархивированных файлов.
External table может работать сразу с несколькими экземплярами gpfdist, запущенными даже на разных узлах. Это еще больше увеличивает производительность системы — как для загрузки, так и для выгрузки данных.