11 migliori produttori di etichette 2023
Jul 15, 20231 motivo per cui Trey Mancini è un'opzione migliore nell'outfield dei Reds rispetto a Jose Barrero
May 02, 202421 ricette speziate alla zucca che vorrai fare per sempre
Aug 21, 202330 dessert resi migliori dall'aggiunta di caffè
Aug 22, 20235 considerazioni per la scelta degli utensili noiosi
Aug 11, 2023Meta rilascia Code Llama, un codice
Meta, intenzionato a fare colpo in uno spazio di intelligenza artificiale generativa pieno di concorrenza, è su una sorta di strappo open source.
Dopo il rilascio di modelli di intelligenza artificiale per la generazione di testo, la traduzione di lingue e la creazione di audio, l'azienda ha reso open source Code Llama, un sistema di apprendimento automatico in grado di generare e spiegare codice in linguaggio naturale, in particolare l'inglese.
Simile a GitHub Copilot e Amazon CodeWhisperer, nonché ai generatori di codice open source basati sull'intelligenza artificiale come StarCoder, StableCode e PolyCoder, Code Llama può completare il codice ed eseguire il debug del codice esistente in una gamma di linguaggi di programmazione, tra cui Python, C++, Java, PHP, Dattiloscritto, C# e Bash.
"Noi di Meta crediamo che i modelli di intelligenza artificiale, ma in particolare i modelli linguistici di grandi dimensioni per la codifica, traggano maggiori benefici da un approccio aperto, sia in termini di innovazione che di sicurezza", ha scritto Meta in un post sul blog condiviso con TechCrunch. “I modelli specifici del codice, disponibili al pubblico, possono facilitare lo sviluppo di nuove tecnologie che migliorano la vita delle persone. Rilasciando modelli di codice come Code Llama, l’intera comunità può valutare le proprie capacità, identificare problemi e correggere le vulnerabilità”.
Code Llama, disponibile in diverse versioni, inclusa una versione ottimizzata per Python e una versione ottimizzata per comprendere le istruzioni (ad esempio "Scrivimi una funzione che emetta la sequenza di Fibonacci"), si basa sul modello di generazione del testo Llama 2 che Meta è stato reso open source all'inizio di questo mese. Sebbene Llama 2 potesse generare codice, non era necessariamente un buon codice, certamente non all'altezza della qualità che un modello appositamente costruito come Copilot poteva produrre.
Nell'addestramento di Code Llama, Meta ha utilizzato lo stesso set di dati utilizzato per addestrare Llama 2: un mix di fonti disponibili pubblicamente da tutto il Web. Ma il modello "enfatizza", per così dire, il sottoinsieme dei dati di addestramento che includeva il codice. In sostanza, a Code Llama è stato concesso più tempo per apprendere le relazioni tra codice e linguaggio naturale rispetto a Llama 2, il suo modello “genitore”.
Ciascuno dei modelli Code Llama, di dimensioni variabili da 7 miliardi a 34 miliardi di parametri, è stato addestrato con 500 miliardi di token di codice insieme ai dati relativi al codice. Il Code Llama specifico per Python è stato ulteriormente perfezionato su 100 miliardi di token di codice Python e, allo stesso modo, il Code Llama per la comprensione delle istruzioni è stato perfezionato utilizzando il feedback degli annotatori umani per generare risposte "utili" e "sicure" alle domande .
Per contesto, i parametri sono le parti di un modello apprese dai dati storici di addestramento e definiscono essenzialmente l'abilità del modello su un problema, come generare testo (o codice, in questo caso), mentre i token rappresentano testo grezzo (ad esempio "fan, ” “tas” e “tic” per la parola “fantastico”).
Molti dei modelli Code Llama possono inserire codice nel codice esistente e tutti possono accettare circa 100.000 token di codice come input, mentre almeno uno, il modello da 7 miliardi di parametri, può essere eseguito su una singola GPU. (Gli altri richiedono hardware più potente.) Meta afferma che il modello da 34 miliardi di parametri è il più performante di qualsiasi generatore di codice open source fino ad oggi - e il più grande in termini di numero di parametri.
Penseresti che uno strumento di generazione di codice sarebbe estremamente attraente per i programmatori e anche per i non programmatori, e non sbaglieresti.
GitHub afferma che più di 400 organizzazioni utilizzano Copilot oggi e che gli sviluppatori all'interno di tali organizzazioni stanno codificando il 55% più velocemente rispetto a prima. Altrove, Stack Overflow, il sito di domande e risposte sulla programmazione, ha rilevato in un recente sondaggio che il 70% sta già utilizzando (o prevede di utilizzare) strumenti di codifica AI quest’anno, citando vantaggi come maggiore produttività e apprendimento più rapido.
Ma come tutte le forme di intelligenza artificiale generativa, gli strumenti di codifica possono andare fuori strada o presentare nuovi rischi.
Un gruppo di ricerca affiliato a Stanford ha scoperto che gli ingegneri che utilizzano strumenti di intelligenza artificiale hanno maggiori probabilità di causare vulnerabilità di sicurezza nelle loro app. Gli strumenti, ha dimostrato il team, spesso generano codice che sembra superficialmente corretto ma che pone problemi di sicurezza invocando software compromesso e utilizzando configurazioni non sicure.