Hozzáférés kérése

#1
by robert777888 - opened

Szia!
Sajnos az AI dubbing eltűnt a reprodból.
Kérlek adj hozzáférést ezekhez a nagyszerű modellekhez!
Köszönöm szépen és szeretetteljes boldog karácsonyt kivánok!

Szia!
Határozatlan ideign senki nem kap semmihez hozzáférést. Az ehhez hasonló https://www.youtube.com/@Rejtettigazs%C3%A1gf%C3%A1jlok csatornák elszaporodása miatt.

Szia Sarpba!
Borzalmasan igénytelen ez a fajta AI használat... Sajnos magyar nyelven (jó kiejtéssel) nem nagyon van még használható modell, pedig nagyon hiányzik. Mindig figyelem van-e tőled (vagy esetleg mástól) frissebb kiadás. Az Elevenlabs hangjait rendszeresen hallom más csatornáknál, már kapcsolom is el...
Nekem narrációs "szinkronhoz" jönne jól saját használatra (illetve szüleimnek, akik nem beszélnek idegen nyelvet). Csináltam egy workflow-t, hogy a felirat alapján legyen a hang időzítve, de még nem az igazi a kiejtés miatt.
Látsz arra esélyt, hogy ez majd idővel változik? Illetve annak is örülnék, ha tudnám hogy kell tréningezni egy modellt, de gondolom nem könnyű és időigényes...

Szia!

A tréningkódok a githubon vannak:
F5-TTS - https://github.com/SWivid/F5-TTS
Vibevoice - https://github.com/vibevoice-community/VibeVoice
A tréning igazából csak kis szetete egy finomhangolási munkának. A talán nehezebb része a megfelelő adatbázis elkészítése. Ebben sajnos nem tudok segíteni, nekem nulláról több évembe telt a megfelelő ismeretanyagok elsajátítása, és az adatbázisok elkészítése. Megfelelő kitartással és elegendő rászánt idővel, nem gondolom problémának ezt sem.

A vízjeles változatot nyugodtan haszálhatod. Emberi fülnek észrevehetetlen, de detektálható vízjeleket helyez el a minőség romlása nélkül.

Mire gondolsz pontosabban a nem megfelelő kiejtés alatt?

Értem, tehát ahogy mondod (és ezt el is hiszem) nagyon sok időbe telik ez (kitartásom lenne). Sajnos sok időm nincsen, általában hétvége meg esténként 1-2 órám szokott lenni AI-al foglalkozni, tanulni és gyakorolni főleg. Mp3Pintyo a kedvenc "tanárom", onnan hallottam rólad is.
A vízjeles sem hozta azt a minőséget (hosszabb szövegnél, az eleje általában jó), amit szeretnék. Legtöbbször az "sz", "dzs", "ly" stb. betűkkel, a nevekkel és a számokkal gyűlik meg a baja. Nagyjából minden második mondatban volt hiba sajnos a kiejtésben.
F5-TTS-el tréningeztem egy adott hangot, az nagyon jól szól, csak az nem egy VibeVoice, hogy női meg férfi hangot tudjak felváltva használni (vagy ami éppen kellene a narrációs "szinkronhoz").
Cseti által tréningelt modellt is néztem, elég jó, de azért nem hibátlan sajnos (Lora változatot is próbáltam).
Köszi az információkat!

Üdv!
Sajnálattal olvasom a hozzáférési zárlatot ... bár megértem.
Részemről hobbiból saját célra ("hang asszisztens") keresek egy jobb tts megoldást.
Eddig megvan egy silero vad előszűrő, egy faster-whisper large v3 turbo stt, ollama s ezek vannak .js ill. .py vel láncolva, s ehhez keresnék egy elfogadható tts -t.

Annyit kérdezhetek hogy melyik modellt javasolnád? Az egész mögött csak egy 16gb -s nvidia van. (Bocs ha szakmaiatlan vagyok, de csak kezdő amatőrként ...

Köszönnettel / Üdvözlettel!

Owner

Erre a célra sem az f5tts sem a vibevoice nem az igazi, nagy lenne a késleltetés.

Azért nem a chatgpt -t szeretném lekörözni :) ... a whisper is kötegelve kapja a bemenetet ... jelenleg jobb ötlet hiányában, akkor egyenlőre valószínű piper-el próbálkozm :)

Sign up or log in to comment