Подтвердить что ты не робот

Используя Pentaho Kettle, как мне загружать несколько таблиц из одной таблицы, сохраняя ссылочную целостность?

Необходимо загружать данные из одного файла с 100 000 + записями в несколько таблиц в MySQL, поддерживая отношения, определенные в файле/таблицах; что означает, что отношения уже совпадают. Решение должно работать с последней версией MySQL и должно использовать движок InnoDB; MyISAM не поддерживает внешние ключи.

Я совершенно новичок в использовании интеграции данных Pentaho (aka Kettle), и любые указатели будут оценены.

Я могу добавить, что это требование, чтобы ограничения внешнего ключа НЕ были отключены. Поскольку я понимаю, что если что-то не так с ссылочной целостностью базы данных, MySQL не будет проверять ссылочную целостность, когда ограничения внешнего ключа снова включены. ИСТОЧНИК: 5.1.4. Системные переменные сервера - foreign_key_checks

Все подходы должны включать некоторые из валидации и стратегии отката, если вставка не выполняется или не поддерживает ссылочную целостность.

Опять же, совершенно новый для этого, и прилагаю все усилия, чтобы предоставить как можно больше информации, если у вас есть какие-либо вопросы или просьба о разъяснении - просто дайте мне знать.

Если вы можете опубликовать XML из файлов kjb и ktr (заданий/преобразований), которые будут SUPER. Можете даже выследить каждый комментарий/ответ, который вы делали где угодно, и проголосуйте за них...:-)... действительно, мне очень важно найти ответ для этого.

Спасибо!


ДАННЫЕ ОБРАЗЦА: Чтобы лучше разобраться с примером, допустим, что я пытаюсь загрузить файл, содержащий имя сотрудника, офисы, которые они занимали в прошлом, и их историю заданий, разделенных вкладкой.

Файл:

EmployeeName<tab>OfficeHistory<tab>JobLevelHistory
John Smith<tab>501<tab>Engineer
John Smith<tab>601<tab>Senior Engineer
John Smith<tab>701<tab>Manager
Alex Button<tab>601<tab>Senior Assistant
Alex Button<tab>454<tab>Manager

ПРИМЕЧАНИЕ. База данных с одной таблицей полностью нормализована (насколько может быть одна таблица) - и, например, в случае с "Джоном Смитом" есть только один Джон Смит; то есть нет дубликатов, которые могли бы привести к конфликтам в ссылочной целостности.

Схема базы данных MyOffice имеет следующие таблицы:

Employee (nId, name)
Office (nId, number)
JobTitle (nId, titleName)
Employee2Office (nEmpID, nOfficeId)
Employee2JobTitle (nEmpId, nJobTitleID)

Итак, в этом случае. таблицы должны выглядеть так:

Employee
1 John Smith
2 Alex Button

Office
1 501
2 601
3 701
4 454

JobTitle
1 Engineer
2 Senior Engineer
3 Manager
4 Senior Assistant

Employee2Office
1 1
1 2
1 3
2 2
2 4

Employee2JobTitle
1 1
1 2
1 3
2 4
2 3

Здесь MySQL DDL для создания базы данных и таблиц:

create database MyOffice2;

use MyOffice2;

CREATE TABLE Employee (
      id MEDIUMINT NOT NULL AUTO_INCREMENT,
      name CHAR(50) NOT NULL,
      PRIMARY KEY (id)
    ) ENGINE=InnoDB;

CREATE TABLE Office (
  id MEDIUMINT NOT NULL AUTO_INCREMENT,
  office_number INT NOT NULL,
  PRIMARY KEY (id)
) ENGINE=InnoDB;

CREATE TABLE JobTitle (
  id MEDIUMINT NOT NULL AUTO_INCREMENT,
  title CHAR(30) NOT NULL,
  PRIMARY KEY (id)
) ENGINE=InnoDB;

CREATE TABLE Employee2JobTitle (
  employee_id MEDIUMINT NOT NULL,
  job_title_id MEDIUMINT NOT NULL,
  FOREIGN KEY (employee_id) REFERENCES Employee(id),
  FOREIGN KEY (job_title_id) REFERENCES JobTitle(id),
  PRIMARY KEY (employee_id, job_title_id)
) ENGINE=InnoDB;

CREATE TABLE Employee2Office (
  employee_id MEDIUMINT NOT NULL,
  office_id MEDIUMINT NOT NULL,
  FOREIGN KEY (employee_id) REFERENCES Employee(id),
  FOREIGN KEY (office_id) REFERENCES Office(id),
  PRIMARY KEY (employee_id, office_id)
) ENGINE=InnoDB;



Мои заметки в ответе на выбранный ответ:

PREP:

  • (a) Используйте образцы данных, создайте CSV, изменив <TAB> на запятую.
  • (b) Установите MySQL и создайте образец базы данных, используя образец MySQL DDL
  • (c) Установите Kettle (он основан на Java и будет запускаться на всех, что запускает Java)
  • (d) Загрузите файл KTR

Поток данных по шагу: (Мои заметки)

  • Откройте KTR файл в чайнике и дважды щелкните "CSV файл" и перейдите к создаваемому CSV файлу. Разделитель уже должен быть установлен в запятую. Затем нажмите OKAY.
  • Дважды нажмите "Вставить сотрудников" и выберите соединитель БД, затем следуйте этим указаниям в Создание нового подключения к базе данных
4b9b3361

Ответ 1

Я собрал образец преобразование (щелкните правой кнопкой мыши и выберите ссылку сохранения) на основе того, что вы предоставили. Единственный шаг, который я чувствую в некоторой степени неопределенным, - это последние входы таблицы. Я в основном записываю данные соединения в таблицу и позволяю ей терпеть неудачу, если уже существует определенная связь.

Примечание:

Это решение действительно не соответствует "Все подходы должны включать некоторые из валидации и стратегии отката, если вставка не выполняется или не поддерживает ссылочную целостность". критериев, хотя, вероятно, это не подведет. Если вы действительно хотите настроить что-то сложное, мы можем это сделать, но это обязательно должно заставить вас идти с этими преобразованиями.

alt text

Поток данных по шагу

1. Начнем с чтения в вашем файле. В моем случае я преобразовал его в CSV, но вкладка тоже прекрасна. alt text

2. Теперь мы будем вставлять имена сотрудников в таблицу Employee с помощью combination lookup/update. После вставки мы добавляем employee_id к нашему потоку данных как id и удаляем EmployeeName из потока данных.

alt text

3. Здесь мы просто используем шаг Select Values, чтобы переименовать поле id в employee_id alt text

4. Вставьте названия заданий точно так же, как мы сделали сотрудников, и добавим идентификатор заголовка в наш поток данных, также удалив JobLevelHistory из потока данных.

alt text

5. Простое переименование идентификатора заголовка title_id (см. шаг 3) alt text

6. Вставьте офисы, получите идентификатор, удалите OfficeHistory из потока.

alt text

7. Простое переименование идентификатора офиса в office_id (см. шаг 3)

alt text

8. Скопируйте данные с последнего шага на два потока со значениями employee_id,office_id и employee_id,title_id соответственно.

alt textalt text

9. Используйте вставку таблицы для вставки данных объединения. Я выбрал его, чтобы игнорировать ошибки вставки, поскольку могут быть дубликаты, а ограничения PK будут приводить к сбою некоторых строк.

Таблицы вывода

alt text

<Т411 >

alt text

alt text

alt text