Data Quality Management pattern Design
Da MIKE2.0 Metodologia
-> Sei qui: ETL Architettura Standard > Architettura della soluzione Definizione / revisione > Data Quality Management Conceptual Design Deliverable Template
| Questo modello deliverable è usato per descrivere un campione di Metodologia MIKE2.0 (normalmente ad un livello di attività). Altri modelli sono ora aggiunti MIKE2.0 come questa è stata una richiesta aspetto spesso della metodologia. contribuenti sono vivamente incoraggiati a contribuire a questo sforzo. |
| Deliverable modelli sono illustrativo a differenza pienamente rappresentativo . Please help aggiungere esempi di questo modello che sono rappresentativi della produzione proposto. |
- Esso può essere descritto ad un livello abbastanza dettagliata di come i processi di dati re-engineering possono essere attuate in tutto l'ambiente per migliorare la qualità dei dati.
- Essa può essere eseguita anche post-creazione dei processi di re-engineering per mostrare come possono essere resa operativa nell'ambiente di integrazione o di essere parte della strategia di migrazione dei dati
Contenuti[ nascondi ] |
Esempio di alto livello Soluzione Definizione per Data Quality Improvement
Di seguito sono elencati esempio di alto livello per la soluzione di definizione dei dati di qualità operativa e Reporting:Panoramica
Questo documento è stato scritto principalmente per chiarire la portata e per ottenere un accordo su come i problemi di qualità dei dati devono essere gestiti all'interno dell'ambiente di Data Warehouse e di essere citati dalla Business Intelligence (BI) Solution. Esso fornirà anche una soluzione di alto livello che formeranno la base per la BI e sviluppo ETL teams'more lavoro dettagliato di progettazione.La funzionalità per l'utente finale coperti da questa soluzione possono essere sintetizzati come segue:
- metriche di pulizia saranno utilizzati per giudicare quanto bene i dati si attiene alle regole di validazione dei dati.
- metriche Completezza sarà utilizzato per giudicare la quantità di dati di origine è stata caricata nel data warehouse.
- metriche Tempestività sarà utilizzato per indicare quanto successo i carichi sono stati dati nel conseguimento degli obiettivi di tempestività per quel mese.
- metrica del tempo di caricamento sarà utilizzato per confrontare i tempi di caricamento contro quella dei carichi precedenti.
- modifiche ai dati dimensionali saranno monitorati nel tempo ed essere disponibili per l'analisi da parte degli utenti aziendali
- Tutte le righe respinto saranno disponibili per analisi e reporting nel database di report ETL.
- Dati integrata Repository e Data Data Mart modelli . In aggiunta alle già esistenti Data Quality tavolo, un tavolo respinge e controllo batch tabella sarà necessario per il monitoraggio delle questioni relative alla qualità dei dati e le eccezioni.
- ETL carico di lavoro . Verrà creato un record nella tabella di qualità dei dati in caso di eventuali inesattezze dei dati nonché compilare specifici campi di dati di qualità in ogni tabella di destinazione. In caso di scarti nel data warehouse, questi record saranno spostati nel data warehouse per l'analisi.
- Rapporti operativi . Nuovi rapporti saranno tenuti a tenere traccia delle modifiche a dati di riferimento, misurare la qualità dei dati e monitorare l'efficacia dei posti di lavoro di carico e generazione di report.
Data Warehouse e di job ETL
Records caricato con i dati temi della Qualità
Le tabelle vengono caricati nel Data Repository integrato che hanno problemi di qualità dei dati verrà contrassegnato nella tabella di destinazione e hanno anche un record inseriti nella tabella i dati di qualità.La colonna DQ Indicatore identifica potenziali problemi di qualità dei dati con il record e si trova in ogni tabella di destinazione del CDR.
| DQ Indicatore | Definizione |
| C | cambiare il livello di Colonna si è verificato |
| D | Sistema ha generato record creato per Missing genitori |
| R | Documenti di riferimento di almeno 1 genitore mancante Record |
| Nessun errore |
DQ colonna Indicatore di attenzione sulle questioni DQ
L'indicatore fornisce DQ tracciabilità tra i record incriminato essere caricata nella tabella e record della qualità dei dati tabella.
Il Data Quality tabella viene utilizzata per gli avvisi segnalando su dati caricati nella CDR e fornendo i dati di origine per la segnalazione metriche pulizia. Tutti i dati che sono stati caricati nel Data Quality Table è stato caricato in tabelle di destinazione del CDR.
| Colonna | Definizione |
| Nome tabella | Il nome della tabella della tabella, la qualità dei dati di errore si è verificato il |
| Record Key | Surrogato tasto assegnato al record |
| Nome colonna | Colonna del nome che ha causato l'errore della qualità dei dati |
| Valore di dati | Valore della colonna che ha causato l'errore della qualità dei dati |
| Codice di errore | Errore codice assegnato dal processo di carico (se del caso) |
| Testo di errore | Breve descrizione del motivo di errore DQ |
| Data Quality Indicator | Data Quality indicatore sollevato |
| Fonte di sistema | Fonte di sistema che ha sollevato la questione della qualità dei dati |
| Data di creazione | Data di carico |
| Numero di partita | Numero di lotto assegnato al processo |
Rejects
Il progetto si avvarrà di una politica che riduce al minimo il rifiuto dei dati nel data warehouse, ma possono esserci casi in cui si verificano respingimenti (eccezioni per motivi tecnici, ad esempio, come la violazione di chiave o di trasmissione dati superiore a vincoli.). Questi dati saranno messi in respingere i file e poi si trasferisce da un processo di ETL in una tabella respinge nei dati integrata Repository in cui il record d'ingresso intero viene caricata in una singola colonna. La struttura della tabella proposta per la tabella respinge è il seguente:| Colonna | Definizione |
| Numero di partita | Numero di lotto assegnato al processo. |
| Nome tabella | Target nome della tabella che lo scarto si è verificato il |
| Respinto Record | Tutti i dati vengono confezionate in questa colonna VARCHAR 4.000 |
| Codice di errore | Errore codice assegnato dal processo di carico (se del caso) |
| Testo di errore | Breve descrizione del motivo del rifiuto |
| Fonte di sistema | Fonte di sistema che ha sollevato la questione della qualità dei dati |
| Data di creazione | Data di carico |
| Numero di partita | Numero di lotto assegnato al processo |
Respinge Tabella Il processo batch per spostare gli scarti file nel data warehouse può essere sia un lavoro di ETL separato che muove tutti i file o respingere un ulteriore passaggio, alla fine di ogni processo ETL.
Controllo batch
Il controllo batch tabella saranno utilizzati per misurare il numero totale di registrazioni caricate contro quelli che avevano problemi. E 'inoltre utilizzato per fornire dati transazionali per misurare le prestazioni dei processi ETL. Il Batch Control Table è popolato dalla sequenza di alto livello che esegue tutti i processi di ETL. Il numero di lotto viene incrementato l'inizio della sequenza; ogni riavvio nel mezzo di questa sequenza di alto livello comporta il numero di lotto stesso utilizzato. Tutti i processi ETL userà lo stesso numero di lotto per una corsa notturna.| Numero di lotto | Incrementato per ogni gestito dalla sequenza di alto livello ETL |
| Business Data | La data di business per cui estratti sono stati elaborati |
| Batch Data / ora di inizio | Data e ora, quando l'esecuzione del lavoro iniziato |
| Batch Data di scadenza / ora | Data e ora, quando il lavoro eseguito completato |
| Risultato Batch | Flag che indica se la partita completata correttamente o è stata interrotta a causa di un errore |
| Batch Dettagli | Eventuali ulteriori dettagli sulla partita |
Batch Control Tabella A controllo batch Fact Table nel Data Mart sarà accessibile dalle relazioni per le statistiche dei processi di segnalazione. Questa tabella viene popolata con i dati transazionali dalla tabella di controllo batch nel Integrated Data Repository da un processo di ETL notte. Il controllo batch Fact Table link alla dimensione calendario nella data mart.
| Numero di lotto | Incrementato per ogni gestito dalla sequenza di alto livello ETL |
| Batch Data / ora di inizio | Data e ora, quando l'esecuzione del lavoro iniziato |
| Batch Data di scadenza / ora | Data e ora, quando il lavoro eseguito completato |
| Records w / o problemi di DQ | Conte di record senza problemi di qualità dei dati |
| Records w / problemi DQ | Conteggio di record con dati di un problema di qualità |
| Records respinto | Conteggio di record con respinto |
| Batch Dettagli | Eventuali ulteriori dettagli sulla partita |
Operative di Reporting
Data Quality Reporting
Questa relazione sarà utilizzato per fornire una misura della qualità dei dati, l'efficacia del job ETL contro SLA predefiniti e storia passata.Qualità dei dati sarà misurata in termini di accuratezza dei dati e Data Completezza. I dati metriche di accuratezza mostrerà quanto bene il aderisce dati alle regole di convalida dei dati e può essere utilizzato per fornire una valutazione della quantità di dati che sono stati caricati nel data warehouse ha potenziali problemi di qualità dei dati. Completezza dei dati metriche mostrano quanto dei dati di origine è stata caricata nel data warehouse.
Misure di accuratezza dei dati e completezza dei dati e visualizza su una base quotidiana e per un mese della storia. Per calcolare la esattezza e completezza, le seguenti misure sono necessarie per Prism al CDR, Weblogs al CDR e CDR di Data Mart:
- Il numero totale di righe di dati caricati correttamente senza problemi di qualità
- Il numero totale di righe caricato con successo i problemi di qualità dei dati
- Numero totale di righe da prisma che è riuscito a caricare in CDR
- Numero di lotto
- Se un numero di righe per un numero di lotto specifico contro ogni tabella di destinazione dove DQ indicatore è O. Ciò sarà fatto contro l'Integrated Data Repository e Data Mart.
- Righe caricato con successo (con dati i problemi di qualità) sono state determinate applicando la seguente logica:
- Se un numero di righe per un numero di lotto specifico contro il tavolo di Data Quality
- Utilizza il codice sorgente del sistema attributo per determinare l'origine del carico
- Calcola i totali righe che è riuscito a caricare con successo sono state determinate applicando la seguente logica:
- Se un numero di righe per un numero di lotto specifico contro il tavolo Rejects
(Totale righe w / o problemi di DQ)
-------------------------------------------------- --------
(Totale righe w / o problemi di DQ
+ W totale righe / problemi DQ)
Completezza è dunque una misura di:
(Totale righe w / o problemi di DQ
+ W totale righe / problemi DQ)
-------------------------------------------------- --------
(Totale righe w / o problemi di DQ
+ Totale righe w / DQ questioni
+ W totale righe / problemi Failure)
ETL carico di prestazioni
L'efficacia dei processi di ETL è determinato utilizzando il controllo batch Fact Table di cercare la seguente:- Tempo necessario per caricare i dati di riferimento Prism in IDR
- Tempo necessario per caricare i dati Weblog nel IDR
- Tempo necessario per caricare i dati dal Data Mart IDRinto
Segnala la generazione di report di prestazioni
La generazione di report relazione sulle prestazioni fornisce una misura di come molte delle relazioni sono state create con successo durante il processo di generazione. Esso fornisce una misura di:- Numero di relazioni creato con successo
- Numero di errori nella creazione di relazioni
- Tempo necessario per generare i report
Nessun commento:
Posta un commento