Quando il Un gran bel disegno di legge è arrivato come un documento non strutturato di 900 pagine, senza uno schema standardizzato, senza moduli IRS pubblicati e una scadenza di spedizione rigida. Il staff TurboTax di Intuit aveva una domanda: l’intelligenza artificiale poteva comprimere un’implementazione di mesi in giorni senza sacrificare la precisione?
Ciò che hanno costruito per farlo non è tanto una storia fiscale quanto un modello, un flusso di lavoro che combina strumenti di intelligenza artificiale commerciali, un linguaggio proprietario specifico per il dominio e un framework di unit check personalizzato da cui qualsiasi staff di sviluppo vincolato al dominio può imparare.
Pleasure Shaw, direttrice fiscale di Intuit, ha trascorso più di 30 anni presso l’azienda e ha vissuto entrambe le esperienze Legge sui tagli fiscali e sull’occupazione e l’OBBB. “C’period molto rumore nella legge stessa e siamo stati in grado di estrarre le implicazioni fiscali, restringere il campo alle singole disposizioni fiscali, restringere il campo ai nostri clienti”, ha detto Shaw a VentureBeat. “Questo tipo di distillazione è stata davvero veloce utilizzando gli strumenti e quindi ci ha permesso di iniziare a scrivere codice ancor prima di ricevere moduli e istruzioni.”
Come l’OBBB ha alzato l’asticella
Quando nel 2017 è stato approvato il Tax Cuts and Jobs Act, il staff TurboTax ha lavorato alla legislazione senza l’assistenza dell’intelligenza artificiale. Ci sono voluti mesi e i requisiti di precisione non lasciavano spazio a scorciatoie.
“Dovevamo esaminare la legge e codificare le sezioni che fanno riferimento advert altre sezioni del codice di legge e cercare di capirlo da soli”, ha detto Shaw.
L’OBBB è arrivato con gli stessi requisiti di precisione ma con un profilo diverso. Con oltre 900 pagine, period strutturalmente più complesso del TCJA. È arrivato come un documento non strutturato senza uno schema standardizzato. Le versioni della Digicam e del Senato hanno utilizzato un linguaggio diverso per descrivere le stesse disposizioni. E il staff ha dovuto iniziare l’implementazione prima che l’IRS avesse pubblicato moduli o istruzioni ufficiali.
La domanda period se gli strumenti di intelligenza artificiale potessero comprimere la sequenza temporale senza compromettere l’output. La risposta richiedeva una sequenza e strumenti specifici che ancora non esistevano.
Dal documento non strutturato al codice specifico del dominio
L’OBBB period ancora in fase di esame al Congresso quando il staff TurboTax iniziò a lavorarci. Utilizzando modelli linguistici di grandi dimensioni, il staff ha riassunto la versione della Digicam, poi quella del Senato e poi ha riconciliato le differenze. Entrambe le Camere hanno fatto riferimento alle stesse sezioni sottostanti del codice fiscale, un punto di ancoraggio coerente che ha consentito ai modelli di effettuare confronti tra documenti strutturalmente incoerenti.
Al momento della firma, il staff aveva già filtrato le disposizioni in base a quelle che interessano i clienti TurboTax, restringendole a situazioni fiscali e profili di clienti specifici. L’analisi, la riconciliazione e il filtraggio dei provisioning sono passati da settimane a ore.
Tali attività sono state gestite da ChatGPT e LLM generici. Ma questi strumenti raggiungono un limite quando il lavoro passa dall’analisi all’implementazione. TurboTax non funziona su un linguaggio di programmazione normal. Il suo motore di calcolo delle imposte è basato su un linguaggio proprietario specifico del dominio gestito internamente da Intuit. Qualsiasi modello che generi codice per quella base di codice deve tradurre il testo legale in una sintassi su cui non è mai stato addestrato e identificare come le nuove disposizioni interagiscono con decenni di codice esistente senza interrompere ciò che già funziona.
Claude è diventato lo strumento principale per quel lavoro di traduzione e mappatura delle dipendenze. Shaw ha affermato che potrebbe identificare cosa è cambiato e cosa no, consentendo agli sviluppatori di concentrarsi solo sulle nuove disposizioni. “È in grado di integrarsi con le cose che non cambiano e di identificare le dipendenze da ciò che è cambiato”, ha detto. “Ciò ha accelerato il processo di sviluppo e ci ha permesso di concentrarci solo sulle cose che sono cambiate.”
Strumenti di costruzione abbinati a una soglia di errore prossima allo zero
I LLM generici hanno portato il staff a lavorare sul codice. Per ottenere il codice disponibile sono stati necessari due strumenti proprietari creati durante il ciclo OBBB.
Le prime schermate del prodotto TurboTax generate automaticamente direttamente dalle modifiche legislative. In precedenza, gli sviluppatori curavano tali schermate individualmente per ciascuna disposizione. Il nuovo strumento ne gestiva la maggior parte in modo automatico, con personalizzazione manuale solo dove necessario.
Il secondo period un framework di check unitario appositamente creato. Intuit ha sempre eseguito check automatizzati, ma il sistema precedente produceva solo risultati positivi/falliti. Quando un check falliva, gli sviluppatori dovevano aprire manualmente il file di dati della dichiarazione dei redditi sottostante per rintracciare la causa. “L’automazione ti direbbe di passare, fallire, dovresti scavare nel file dei dati fiscali effettivi per vedere cosa avrebbe potuto essere sbagliato”, ha detto Shaw. Il nuovo framework identifica lo specifico segmento di codice responsabile, genera una spiegazione e consente di apportare la correzione all’interno del framework stesso.
Shaw ha affermato che la precisione per un prodotto fiscale sui consumi deve essere vicina al 100%. Sarah Aerni, vicepresidente della tecnologia di Intuit per il Shopper Group, ha affermato che l’architettura deve produrre risultati deterministici. “Avere le capacità legate al determinismo e corrette in modo verificabile attraverso i check: questo è ciò che porta a quel tipo di fiducia”, ha detto Aerni.
L’attrezzatura gestisce la velocità. Ma Intuit utilizza anche strumenti di valutazione basati su LLM per convalidare l’output generato dall’intelligenza artificiale, e anche questi richiedono un esperto fiscale umano per valutare se il risultato è corretto. “Si tratta di avere competenze umane per essere in grado di convalidare e verificare qualsiasi cosa”, ha detto Aerni.
Quattro componenti che qualsiasi staff di settore regolamentato può utilizzare
L’OBBB rappresentava un problema fiscale, ma le condizioni sottostanti non riguardano esclusivamente la tassazione. I staff di sanità, servizi finanziari, tecnologia legale e appaltatori governativi si trovano regolarmente advert affrontare la stessa combinazione: documenti normativi complessi, scadenze rigorose, basi di codici proprietari e tolleranza agli errori prossima allo zero.
In base all’implementazione di Intuit, quattro elementi del flusso di lavoro sono trasferibili advert altri ambienti di sviluppo con vincoli di dominio:
-
Utilizza LLM commerciali per l’analisi dei documenti. I modelli generici gestiscono bene l’analisi, la riconciliazione e il filtraggio del provisioning. È qui che aggiungono velocità senza creare rischi di precisione.
-
Passare a strumenti sensibili al dominio quando l’analisi diventa implementazione. I modelli generici che generano codice in un ambiente proprietario senza comprenderlo produrranno output di cui non ci si può fidare su larga scala.
-
Costruisci l’infrastruttura di valutazione prima della scadenza, non durante lo dash. I check automatizzati generici producono output cross/fail. Strumenti di check specifici del dominio che identificano gli errori e consentono correzioni nel contesto sono ciò che rende distribuibile il codice generato dall’intelligenza artificiale.
-
Distribuisci gli strumenti di intelligenza artificiale in tutta l’organizzazione, non solo nel settore tecnico. Shaw ha affermato che Intuit ha formato e monitorato l’utilizzo di tutte le funzioni. La fluidità dell’intelligenza artificiale è stata distribuita in tutta l’organizzazione anziché concentrata sui primi utilizzatori.
“Continuiamo a sfruttare le opportunità offerte dall’intelligenza artificiale e dall’intelligenza umana, in modo che i nostri clienti ottengano ciò di cui hanno bisogno dalle esperienze che costruiamo”, ha affermato Aerni.











