110 usomaji

LoRA inajifunza kidogo na kusahau kidogo - Je, hii ni bug au kipengele?

kwa Large Models (dot tech)6m2025/06/17
Read on Terminal Reader

Ndefu sana; Kusoma

Ufanisi kamili unashinda LoRA kwa usahihi na kasi kwa kazi za nambari na kimantiki, lakini LoRA inatoa uhalali mkubwa na inahifadhi tabia ya mfano zaidi.
featured image - LoRA inajifunza kidogo na kusahau kidogo - Je, hii ni bug au kipengele?
Large Models (dot tech) HackerNoon profile picture
0-item

Waandishi wa:

(1) Dan Biderman, Chuo Kikuu cha Columbia na Databricks Mosaic AI (db3236@columbia.edu);

(2) Jose Gonzalez Ortiz, Databricks Mosaic AI (j.gonzalez@databricks.com);

(3) Jacob Portes, Databricks Mosaic AI (jportes@databricks.com);

(4) Mansheej Paul, Databricks Mosaic AI (mansheej.paul@databricks.com);

(5) Philip Greengard, Chuo Kikuu cha Columbia (pg2118@columbia.edu);

(6) Connor Jennings, Databricks Mosaic AI (connor.jennings@databricks.com);

(7) Daniel King, Databricks Mosaic AI (daniel.king@databricks.com);

(8) Sam Havens, Databricks Mosaic AI (sam.havens@databricks.com);

(9) Vitaliy Chiley, Databricks Mosaic AI (vitaliy.chiley@databricks.com);

(10) Jonathan Frankle, Databricks Mosaic AI (jfrankle@databricks.com);

(11) Cody Blakeney, Databricks Mosaic AI (cody.blakeney);

(12) John P. Cunningham, Chuo Kikuu cha Columbia (jpc2181@columbia.edu).

Authors:

(1) Dan Biderman, Chuo Kikuu cha Columbia na Databricks Mosaic AI (db3236@columbia.edu);

(2) Jose Gonzalez Ortiz, Databricks Mosaic AI (j.gonzalez@databricks.com);

(3) Jacob Portes, Databricks Mosaic AI (jportes@databricks.com);

(4) Mansheej Paul, Databricks Mosaic AI (mansheej.paul@databricks.com);

(5) Philip Greengard, Chuo Kikuu cha Columbia (pg2118@columbia.edu);

(6) Connor Jennings, Databricks Mosaic AI (connor.jennings@databricks.com);

(7) Daniel King, Databricks Mosaic AI (daniel.king@databricks.com);

(8) Sam Havens, Databricks Mosaic AI (sam.havens@databricks.com);

(9) Vitaliy Chiley, Databricks Mosaic AI (vitaliy.chiley@databricks.com);

(10) Jonathan Frankle, Databricks Mosaic AI (jfrankle@databricks.com);

(11) Cody Blakeney, Databricks Mosaic AI (cody.blakeney);

(12) John P. Cunningham, Chuo Kikuu cha Columbia (jpc2181@columbia.edu).

Abstract na Maelezo ya 1

2 Nyuma ya

3 Usimamizi wa majaribio na Datasets 3.1 kwa ajili ya Mafunzo ya Ufuatiliaji (CPT) na Maelekezo ya Finetuning (IFT)

3.2 Kupima kujifunza kwa kutumia Benchmarks ya Coding na Mathematics (tathmini ya uwanja wa lengo)

3.3 Kusahau Metrics (Tathmini ya Domain ya Chanzo)

4 Matokeo ya

4.1 LoRA inafanya kazi chini ya ufanisi kamili katika mipango na kazi za kimantiki

4.2 LoRA inasahau kidogo kuliko finetuning kamili

4.3 The Learning-Forgetting Tradeoff

4.4 Vituo vya uadilifu wa LoRA

4.5 Ufanisi kamili juu ya nambari na kimantiki haina kujifunza uharibifu wa kiwango cha chini

4.6 Matumizi ya vitendo kwa ajili ya kujenga LoRA kwa ufanisi

5 Kazi zinazohusiana

6 Mazungumzo ya

7 Ufafanuzi na Maelezo

Appendix

A. Utaratibu wa majaribio

B. Utafiti wa kiwango cha kujifunza

C. Takwimu za mafunzo

D. Kuongeza ufanisi wa kumbukumbu kwa LoRA kwa Mipangilio ya Single na Multi-GPU


Abstract ya

Ufanisi wa kiwango cha chini (LoRA) ni mbinu ya ufanisi wa kiwango cha juu inayotumika sana kwa mifano ya lugha kubwa. LoRA hupunguza kumbukumbu kwa kufundisha tu uharibifu wa kiwango cha chini kwa maagizo yaliyochaguliwa. Katika kazi hii, tunashirikisha utendaji wa LoRA na ufanisi wa kamili juu ya maeneo mawili ya lengo, programu na kimantiki. Tunachunguza ufanisi wa maagizo (≈100K wanandoa wa majibu ya haraka) na utafiti wa kuendelea (≈10B tokens zisizojengwa). Matokeo yetu yanaonyesha kwamba, katika mazingira mengi, LoRA hufanya kazi kwa kiasi kikubwa chini ya ufanisi wa ufanisi kamili. Hata hivyo, LoRA inaonyesha ufanisi unaohitajika wa ufanisi: inahif

1 Maelezo ya

Finetuning mifano ya lugha kubwa (LLMs) na mabilioni ya uzito inahitaji kiasi kidogo cha kumbukumbu ya GPU. mbinu za finetuning ya ufanisi wa vigezo hupunguza athari ya kumbukumbu wakati wa mafunzo kwa kupunguza LLM iliyopangwa na tu mafunzo idadi ndogo ya vigezo vya ziada, mara nyingi huitwa vifaa vya kubadilisha. Adaptation Low-Rank (LoRA; Hu et al. (2021)) hufundisha vifaa ambavyo ni uharibifu wa kiwango cha chini kwa vifaa vya uzito vinavyochaguliwa.


Tangu kuanzishwa kwake, LoRA imekuwa ikitangazwa kama kuboresha ufanisi wa dharura ambayo haina kuathiri usahihi juu ya uwanja mpya, lengo (Hu et al., 2021; Dettmers et al., 2024; Raschka, 2023; Zhao et al., 2024b). Hata hivyo, tu wachache ya masomo benchmark LoRA dhidi ya finetuning kamili kwa LLMs na mabilioni ya vigezo, (Ivison et al., 2023; Zhuo et al., 2024; Dettmers et al., 2024), taarifa matokeo mchanganyiko. Baadhi ya masomo haya yanategemea mifano ya zamani (kwa mfano, RoBERTa), au benchmarks tupu ya tathmini (kama vile GLUE au ROUGE) ambayo ni chini ya maana kwa LLMs za kisasaHere we ask: under which conditions does LoRA approximate full finetuning accuracy on challenging target domains, such as code and math?


Kwa mafunzo ya vigezo vidogo, LoRA inachukuliwa kutoa aina ya regularization ambayo inahifadhi tabia ya mfano wa finetuned kuwa karibu na mfano wa msingi (Sun et al., 2023; Du et al., 2024).We also ask: does LoRA act as a regularizer that mitigates “forgetting” of the source domain?


Katika utafiti huu, tunashirikisha kwa makini LoRA na finetuning kamili kwa ajili ya Llama-2 7B (na katika baadhi ya kesi, 13B) mifano katika maeneo mawili ya changamoto ya lengo, msimbo na kimantiki. Kwenye kila uwanja, tunachunguza mifumo miwili ya mafunzo. Kwanza ni mwongozo finetuning, hali ya kawaida kwa LoRA ikiwa ni pamoja na seti ya data ya swali na majibu na mamia ya mamilioni ya tokens. Hapa, tunatumia Magicoder-Evol-Instruct-110K (Wei et al., 2023) na MetaMathQA (Yu et al., 2023). Mfumo wa pili unaendelea mafunzo ya awali, programu isiyo ya kawaida kwa LoRA ambayo inahusisha mafunzo juu ya mamilioni ya tokens zisizojulikana; hapa tun


Tunatathmini utendaji wa kikoa cha lengo (katika sasa, kujifunza) kwa njia ya coding ya changamoto na viwango vya kimantiki (HumanEval; Chen et al. (2021), na GSM8K; Cobbe et al. (2021)). Tathmini utendaji wa kikoa cha chanzo cha kusahau juu ya uelewa wa lugha, ujuzi wa ulimwengu, na kazi za akili (Zellers et al., 2019; Sakaguchi et al., 2019; Clark et al., 2018).


Tunaona kwamba kwa coding, LoRA ina utendaji mdogo sana chini ya finetuning kamili, wakati kwa Mathematics, LoRA hufungua upungufu zaidi (Sehemu ya 4.1), wakati inahitaji mafunzo ya muda mrefu. Pamoja na upungufu huu, tunaonyesha kwamba LoRA inahifadhi utendaji bora wa kikoa cha chanzo ikilinganishwa na finetuning kamili (Sehemu ya 4.2). Zaidi ya hayo, tunafafanua uteuzi kati ya utendaji kwenye uwanja wa lengo na uwanja wa chanzo (kujifunza ikilinganishwa na kusahau). Kwa ukubwa wa mfano na seti ya data, tunaona kwamba LoRA na finetuning kamili huunda mzunguko wa biashara wa kujifunza na kusahau: LoRAs ambazo zinajifunza zaidi kwa ujumla kusahau kama finetuning


Figure 1: Learning vs. forgetting tradeoff curves for Llama-2-7B and Llama-2-13B trained on Starcoder-Python. Gray regions are hypothetical Pareto frontiers for performance on the source domain and the code target domain.


Tunaonyesha kwamba LoRA - hata na kiwango cha chini cha kizuizi - hutoa uhalali mkubwa ikilinganishwa na mbinu za kawaida za uhalali kama vile dropout (Srivastava et al., 2014), na kupungua kwa uzito (Goodfellow et al., 2016). Tunaonyesha pia kwamba LoRA hutoa uhalali katika kiwango cha output: tunachambua ufumbuzi uliotengenezwa kwa matatizo ya HumanEval na kupata kwamba wakati uhalali kamili unakaribia seti ndogo ya ufumbuzi, LoRA inahifadhi ufumbuzi tofauti zaidi sawa na mfano wa msingi (Sun et al., 2023; Du et al., 2024).


Kwa nini LoRA inafanya kazi chini ya finetuning kamili? LoRA ilianzishwa kwa sehemu na hypothesis kwamba finetuning inatokana na uharibifu wa kiwango cha chini kwa maumbo ya uzito wa mfano wa msingi (Li et al., 2018; Aghajanyan et al., 2020; Hu et al., 2021). Hata hivyo, kazi zilizojaribiwa na kazi hizi ni rahisi kwa LLMs za kisasa, na pengine rahisi zaidi kuliko maeneo ya coding na kimantiki yaliyojifunza hapa. Hivyo, tunafanya uharibifu wa thamani ya kipekee ili kuonyesha kwamba finetuning kamili haina kubadilisha mzunguko wa maumbo ya uzito wa mfano wa msingi, na hata hivyo tofauti kati ya mbili (yaani uharibifu) ni kiwango cha juu. Kiwango cha uharibifu kinaongezeka kama mafunzo yanaendelea


Tunaona kuwa LoRA ni maalum kuhusiana na viwango vya kujifunza, na kwamba utendaji unaathiriwa hasa na uchaguzi wa moduli ya lengo na kwa kiwango kidogo kwa kiwango.


Kwa muhtasari, tunachangia matokeo yafuatayo:


• Finetuning kamili ni sahihi zaidi na sample-efficient kuliko LoRA katika nambari na kimantiki (Section.4.1).


• LoRA inasahau kidogo ya kikoa cha chanzo, ikitoa aina ya regularization (Sehemu 4.2 na 4.3).


• Regularization ya LoRA ni nguvu zaidi ikilinganishwa na mbinu za kawaida za regularization; pia husaidia kudumisha utofauti wa vizazi (Sehemu ya 4.4).


• Utaratibu kamili unaona usumbufu wa kiwango cha juu cha uzito (Kifungu cha 4.5).


Table 1: Datasets and token counts for math and code experiments


• Ikilinganishwa na finetuning kamili, LoRA ni zaidi na hyperparameters, yaani kiwango cha kujifunza, modules lengo, na nafasi (katika utaratibu wa kupungua; Sehemu ya 4.6).

2 Nyuma ya



Makala hii inapatikana kwenye archiv chini ya leseni ya CC BY 4.0 DEED.

Makala hii inapatikana kwenye archiv chini ya leseni ya CC BY 4.0 DEED.

Upatikanaji wa Archives


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks