Hozzáférés kérése

by robert777888 - opened Dec 25, 2025

Dec 25, 2025

•

edited Dec 25, 2025

Szia!
Sajnos az AI dubbing eltűnt a reprodból.
Kérlek adj hozzáférést ezekhez a nagyszerű modellekhez!
Köszönöm szépen és szeretetteljes boldog karácsonyt kivánok!

sarpba

Owner Dec 27, 2025

Szia!
Határozatlan ideign senki nem kap semmihez hozzáférést. Az ehhez hasonló https://www.youtube.com/@Rejtettigazs%C3%A1gf%C3%A1jlok csatornák elszaporodása miatt.

Seneb

Jan 12

Szia Sarpba!
Borzalmasan igénytelen ez a fajta AI használat... Sajnos magyar nyelven (jó kiejtéssel) nem nagyon van még használható modell, pedig nagyon hiányzik. Mindig figyelem van-e tőled (vagy esetleg mástól) frissebb kiadás. Az Elevenlabs hangjait rendszeresen hallom más csatornáknál, már kapcsolom is el...
Nekem narrációs "szinkronhoz" jönne jól saját használatra (illetve szüleimnek, akik nem beszélnek idegen nyelvet). Csináltam egy workflow-t, hogy a felirat alapján legyen a hang időzítve, de még nem az igazi a kiejtés miatt.
Látsz arra esélyt, hogy ez majd idővel változik? Illetve annak is örülnék, ha tudnám hogy kell tréningezni egy modellt, de gondolom nem könnyű és időigényes...

sarpba

Owner Jan 13

•

edited Jan 13

Szia!

A tréningkódok a githubon vannak:
F5-TTS - https://github.com/SWivid/F5-TTS
Vibevoice - https://github.com/vibevoice-community/VibeVoice
A tréning igazából csak kis szetete egy finomhangolási munkának. A talán nehezebb része a megfelelő adatbázis elkészítése. Ebben sajnos nem tudok segíteni, nekem nulláról több évembe telt a megfelelő ismeretanyagok elsajátítása, és az adatbázisok elkészítése. Megfelelő kitartással és elegendő rászánt idővel, nem gondolom problémának ezt sem.

A vízjeles változatot nyugodtan haszálhatod. Emberi fülnek észrevehetetlen, de detektálható vízjeleket helyez el a minőség romlása nélkül.

Mire gondolsz pontosabban a nem megfelelő kiejtés alatt?

Seneb

Jan 13

Értem, tehát ahogy mondod (és ezt el is hiszem) nagyon sok időbe telik ez (kitartásom lenne). Sajnos sok időm nincsen, általában hétvége meg esténként 1-2 órám szokott lenni AI-al foglalkozni, tanulni és gyakorolni főleg. Mp3Pintyo a kedvenc "tanárom", onnan hallottam rólad is.
A vízjeles sem hozta azt a minőséget (hosszabb szövegnél, az eleje általában jó), amit szeretnék. Legtöbbször az "sz", "dzs", "ly" stb. betűkkel, a nevekkel és a számokkal gyűlik meg a baja. Nagyjából minden második mondatban volt hiba sajnos a kiejtésben.
F5-TTS-el tréningeztem egy adott hangot, az nagyon jól szól, csak az nem egy VibeVoice, hogy női meg férfi hangot tudjak felváltva használni (vagy ami éppen kellene a narrációs "szinkronhoz").
Cseti által tréningelt modellt is néztem, elég jó, de azért nem hibátlan sajnos (Lora változatot is próbáltam).
Köszi az információkat!

adorj706

Jan 27

Üdv!
Sajnálattal olvasom a hozzáférési zárlatot ... bár megértem.
Részemről hobbiból saját célra ("hang asszisztens") keresek egy jobb tts megoldást.
Eddig megvan egy silero vad előszűrő, egy faster-whisper large v3 turbo stt, ollama s ezek vannak .js ill. .py vel láncolva, s ehhez keresnék egy elfogadható tts -t.

Annyit kérdezhetek hogy melyik modellt javasolnád? Az egész mögött csak egy 16gb -s nvidia van. (Bocs ha szakmaiatlan vagyok, de csak kezdő amatőrként ...

Köszönnettel / Üdvözlettel!

sarpba

Owner Jan 28

Erre a célra sem az f5tts sem a vibevoice nem az igazi, nagy lenne a késleltetés.

adorj706

Jan 28

Azért nem a chatgpt -t szeretném lekörözni :) ... a whisper is kötegelve kapja a bemenetet ... jelenleg jobb ötlet hiányában, akkor egyenlőre valószínű piper-el próbálkozm :)

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment