giovedì 2 giugno 2011

90 - sviluppo - Data Quality Management pattern Design

Data Quality Management  pattern Design 

Da MIKE2.0 Metodologia

Share/Save/Bookmark
Questo modello deliverable è usato per descrivere un campione di Metodologia MIKE2.0 (normalmente ad un livello di attività). Altri modelli sono ora aggiunti MIKE2.0 come questa è stata una richiesta aspetto spesso della metodologia. contribuenti sono vivamente incoraggiati a contribuire a questo sforzo.
Deliverable modelli sono illustrativo a differenza pienamente rappresentativo . Please help aggiungere esempi di questo modello che sono rappresentativi della produzione proposto.
Lo scopo della Data Quality Management compito può essere di 2 fasi:
  • Esso può essere descritto ad un livello abbastanza dettagliata di come i processi di dati re-engineering possono essere attuate in tutto l'ambiente per migliorare la qualità dei dati.
  • Essa può essere eseguita anche post-creazione dei processi di re-engineering per mostrare come possono essere resa operativa nell'ambiente di integrazione o di essere parte della strategia di migrazione dei dati

Contenuti

[ nascondi ]

Esempio di alto livello Soluzione Definizione per Data Quality Improvement

Di seguito sono elencati esempio di alto livello per la soluzione di definizione dei dati di qualità operativa e Reporting:

Panoramica

Questo documento è stato scritto principalmente per chiarire la portata e per ottenere un accordo su come i problemi di qualità dei dati devono essere gestiti all'interno dell'ambiente di Data Warehouse e di essere citati dalla Business Intelligence (BI) Solution. Esso fornirà anche una soluzione di alto livello che formeranno la base per la BI e sviluppo ETL teams'more lavoro dettagliato di progettazione.
La funzionalità per l'utente finale coperti da questa soluzione possono essere sintetizzati come segue:
  • metriche di pulizia saranno utilizzati per giudicare quanto bene i dati si attiene alle regole di validazione dei dati.
  • metriche Completezza sarà utilizzato per giudicare la quantità di dati di origine è stata caricata nel data warehouse.
  • metriche Tempestività sarà utilizzato per indicare quanto successo i carichi sono stati dati nel conseguimento degli obiettivi di tempestività per quel mese.
  • metrica del tempo di caricamento sarà utilizzato per confrontare i tempi di caricamento contro quella dei carichi precedenti.
  • modifiche ai dati dimensionali saranno monitorati nel tempo ed essere disponibili per l'analisi da parte degli utenti aziendali
  • Tutte le righe respinto saranno disponibili per analisi e reporting nel database di report ETL.
Questi requisiti avranno un impatto sui posti di lavoro di carico e CDR e Data Mart modello di dati e il risultato in 3 nuove relazioni:
  • Dati integrata Repository e Data Data Mart modelli . In aggiunta alle già esistenti Data Quality tavolo, un tavolo respinge e controllo batch tabella sarà necessario per il monitoraggio delle questioni relative alla qualità dei dati e le eccezioni.
  • ETL carico di lavoro . Verrà creato un record nella tabella di qualità dei dati in caso di eventuali inesattezze dei dati nonché compilare specifici campi di dati di qualità in ogni tabella di destinazione. In caso di scarti nel data warehouse, questi record saranno spostati nel data warehouse per l'analisi.
  • Rapporti operativi . Nuovi rapporti saranno tenuti a tenere traccia delle modifiche a dati di riferimento, misurare la qualità dei dati e monitorare l'efficacia dei posti di lavoro di carico e generazione di report.
Le modifiche sono descritte in dettaglio nel seguito di questo documento.

Data Warehouse e di job ETL

Records caricato con i dati temi della Qualità

Le tabelle vengono caricati nel Data Repository integrato che hanno problemi di qualità dei dati verrà contrassegnato nella tabella di destinazione e hanno anche un record inseriti nella tabella i dati di qualità.
Center
La colonna DQ Indicatore identifica potenziali problemi di qualità dei dati con il record e si trova in ogni tabella di destinazione del CDR.
DQ Indicatore Definizione
C cambiare il livello di Colonna si è verificato
D Sistema ha generato record creato per Missing genitori
R Documenti di riferimento di almeno 1 genitore mancante Record
Nessun errore

DQ colonna Indicatore di attenzione sulle questioni DQ
L'indicatore fornisce DQ tracciabilità tra i record incriminato essere caricata nella tabella e record della qualità dei dati tabella.
Il Data Quality tabella viene utilizzata per gli avvisi segnalando su dati caricati nella CDR e fornendo i dati di origine per la segnalazione metriche pulizia. Tutti i dati che sono stati caricati nel Data Quality Table è stato caricato in tabelle di destinazione del CDR.
Colonna Definizione
Nome tabella Il nome della tabella della tabella, la qualità dei dati di errore si è verificato il
Record Key Surrogato tasto assegnato al record
Nome colonna Colonna del nome che ha causato l'errore della qualità dei dati
Valore di dati Valore della colonna che ha causato l'errore della qualità dei dati
Codice di errore Errore codice assegnato dal processo di carico (se del caso)
Testo di errore Breve descrizione del motivo di errore DQ
Data Quality Indicator Data Quality indicatore sollevato
Fonte di sistema Fonte di sistema che ha sollevato la questione della qualità dei dati
Data di creazione Data di carico
Numero di partita Numero di lotto assegnato al processo
Data Quality Table

Rejects

Il progetto si avvarrà di una politica che riduce al minimo il rifiuto dei dati nel data warehouse, ma possono esserci casi in cui si verificano respingimenti (eccezioni per motivi tecnici, ad esempio, come la violazione di chiave o di trasmissione dati superiore a vincoli.). Questi dati saranno messi in respingere i file e poi si trasferisce da un processo di ETL in una tabella respinge nei dati integrata Repository in cui il record d'ingresso intero viene caricata in una singola colonna. La struttura della tabella proposta per la tabella respinge è il seguente:
Colonna Definizione
Numero di partita Numero di lotto assegnato al processo.
Nome tabella Target nome della tabella che lo scarto si è verificato il
Respinto Record Tutti i dati vengono confezionate in questa colonna VARCHAR 4.000
Codice di errore Errore codice assegnato dal processo di carico (se del caso)
Testo di errore Breve descrizione del motivo del rifiuto
Fonte di sistema Fonte di sistema che ha sollevato la questione della qualità dei dati
Data di creazione Data di carico
Numero di partita Numero di lotto assegnato al processo

Respinge Tabella Il processo batch per spostare gli scarti file nel data warehouse può essere sia un lavoro di ETL separato che muove tutti i file o respingere un ulteriore passaggio, alla fine di ogni processo ETL.
Center

Controllo batch

Il controllo batch tabella saranno utilizzati per misurare il numero totale di registrazioni caricate contro quelli che avevano problemi. E 'inoltre utilizzato per fornire dati transazionali per misurare le prestazioni dei processi ETL. Il Batch Control Table è popolato dalla sequenza di alto livello che esegue tutti i processi di ETL. Il numero di lotto viene incrementato l'inizio della sequenza; ogni riavvio nel mezzo di questa sequenza di alto livello comporta il numero di lotto stesso utilizzato. Tutti i processi ETL userà lo stesso numero di lotto per una corsa notturna.
Numero di lotto Incrementato per ogni gestito dalla sequenza di alto livello ETL
Business Data La data di business per cui estratti sono stati elaborati
Batch Data / ora di inizio Data e ora, quando l'esecuzione del lavoro iniziato
Batch Data di scadenza / ora Data e ora, quando il lavoro eseguito completato
Risultato Batch Flag che indica se la partita completata correttamente o è stata interrotta a causa di un errore
Batch Dettagli Eventuali ulteriori dettagli sulla partita

Batch Control Tabella A controllo batch Fact Table nel Data Mart sarà accessibile dalle relazioni per le statistiche dei processi di segnalazione. Questa tabella viene popolata con i dati transazionali dalla tabella di controllo batch nel Integrated Data Repository da un processo di ETL notte. Il controllo batch Fact Table link alla dimensione calendario nella data mart.
Numero di lotto Incrementato per ogni gestito dalla sequenza di alto livello ETL
Batch Data / ora di inizio Data e ora, quando l'esecuzione del lavoro iniziato
Batch Data di scadenza / ora Data e ora, quando il lavoro eseguito completato
Records w / o problemi di DQ Conte di record senza problemi di qualità dei dati
Records w / problemi DQ Conteggio di record con dati di un problema di qualità
Records respinto Conteggio di record con respinto
Batch Dettagli Eventuali ulteriori dettagli sulla partita
Batch Control Tabella dei fatti

Operative di Reporting

Data Quality Reporting

Questa relazione sarà utilizzato per fornire una misura della qualità dei dati, l'efficacia del job ETL contro SLA predefiniti e storia passata.
Qualità dei dati sarà misurata in termini di accuratezza dei dati e Data Completezza. I dati metriche di accuratezza mostrerà quanto bene il aderisce dati alle regole di convalida dei dati e può essere utilizzato per fornire una valutazione della quantità di dati che sono stati caricati nel data warehouse ha potenziali problemi di qualità dei dati. Completezza dei dati metriche mostrano quanto dei dati di origine è stata caricata nel data warehouse.
Misure di accuratezza dei dati e completezza dei dati e visualizza su una base quotidiana e per un mese della storia. Per calcolare la esattezza e completezza, le seguenti misure sono necessarie per Prism al CDR, Weblogs al CDR e CDR di Data Mart:
  1. Il numero totale di righe di dati caricati correttamente senza problemi di qualità
  1. Il numero totale di righe caricato con successo i problemi di qualità dei dati
  1. Numero totale di righe da prisma che è riuscito a caricare in CDR
  1. Numero di lotto
Righe caricato correttamente (senza dati i problemi di qualità) sono state determinate applicando la seguente logica:
  • Se un numero di righe per un numero di lotto specifico contro ogni tabella di destinazione dove DQ indicatore è O. Ciò sarà fatto contro l'Integrated Data Repository e Data Mart.
  • Righe caricato con successo (con dati i problemi di qualità) sono state determinate applicando la seguente logica:
  • Se un numero di righe per un numero di lotto specifico contro il tavolo di Data Quality
  • Utilizza il codice sorgente del sistema attributo per determinare l'origine del carico
  • Calcola i totali righe che è riuscito a caricare con successo sono state determinate applicando la seguente logica:
  • Se un numero di righe per un numero di lotto specifico contro il tavolo Rejects
L'accuratezza è dunque una misura di:
(Totale righe w / o problemi di DQ)
-------------------------------------------------- --------
(Totale righe w / o problemi di DQ
+ W totale righe / problemi DQ)
Completezza è dunque una misura di:
(Totale righe w / o problemi di DQ
+ W totale righe / problemi DQ)
-------------------------------------------------- --------
(Totale righe w / o problemi di DQ
+ Totale righe w / DQ questioni
+ W totale righe / problemi Failure)

ETL carico di prestazioni

L'efficacia dei processi di ETL è determinato utilizzando il controllo batch Fact Table di cercare la seguente:
  • Tempo necessario per caricare i dati di riferimento Prism in IDR
  • Tempo necessario per caricare i dati Weblog nel IDR
  • Tempo necessario per caricare i dati dal Data Mart IDRinto
Queste relazioni saranno indicate su base giornaliera e sarà mostrato per un mese della storia. Tempestività metriche sono mostrati misurando il tempo necessario per caricare i dati contro la SLA che è stato messo in atto per il caricamento di questi dati.

Segnala la generazione di report di prestazioni

La generazione di report relazione sulle prestazioni fornisce una misura di come molte delle relazioni sono state create con successo durante il processo di generazione. Esso fornisce una misura di:
  • Numero di relazioni creato con successo
  • Numero di errori nella creazione di relazioni
  • Tempo necessario per generare i report
Si legge queste informazioni da tabelle di controllo di popolazione come parte del processo di generazione della cartella.

Nessun commento:

Posta un commento