Commits · natasa365/whisper.cpp

CUDA: add FP32 FlashAttention vector kernel (llama/7188)

03d4b22
unverified

JohannesGaessler commited on May 12, 2024

ggml : remove oboslete alibi code (skipme) (#0)

d25c1e3

ggerganov commited on May 12, 2024

ggml : full ALiBi support (llama/7192)

192bda4

ggerganov commited on May 11, 2024

CUDA: generalize FP16 fattn vec kernel (llama/7061)

ca79691

JohannesGaessler commited on May 9, 2024

Introduction of CUDA Graphs to LLama.cpp (llama/6766)

08fc76d

agray3 slaren commited on May 8, 2024

CUDA: CUDART < 11.7 workaround for hmax, hmax2 (llama/7019)

4cf786d

JohannesGaessler commited on May 1, 2024

ggml : add Flash Attention (llama/5021)

34d3b03

ggerganov

JohannesGaessler

phymbert commited on Apr 30, 2024

Fix more int overflow during quant (PPL/CUDA). (llama/6563)

531387f

dranger003 commited on Apr 28, 2024

ggml : group all experts in a single ggml_mul_mat_id (llama/6505)

f0b5c67

slaren

ggerganov commited on Apr 18, 2024

feat: implemented sigmoid function (ggml/806)

cd0c122

Justina Cho commited on May 1, 2024

llama : add Command R Plus support (llama/6491)

8cf7097
unverified

Carolinabanana S S slaren

ggerganov commited on Apr 9, 2024

sync : llama.cpp (skip)

88282d1
unverified

ggerganov commited on Apr 6, 2024

ggml : mul_mat_id use the same tensor for all the experts (llama/6387)

26fdc9f
unverified

slaren

ggerganov commited on Apr 3, 2024

sync : ggml (#2001)

cbbfa9e
unverified

ggerganov commited on Mar 27, 2024

Spaces:

natasa365
/

whisper.cpp

Running

Commit History

CUDA: add FP32 FlashAttention vector kernel (llama/7188)

03d4b22
unverified

ggml : remove oboslete alibi code (skipme) (#0)

d25c1e3

ggml : full ALiBi support (llama/7192)

192bda4

CUDA: generalize FP16 fattn vec kernel (llama/7061)

ca79691

Introduction of CUDA Graphs to LLama.cpp (llama/6766)

08fc76d

CUDA: CUDART < 11.7 workaround for hmax, hmax2 (llama/7019)

4cf786d

ggml : add Flash Attention (llama/5021)

34d3b03

Fix more int overflow during quant (PPL/CUDA). (llama/6563)

531387f

ggml : group all experts in a single ggml_mul_mat_id (llama/6505)

f0b5c67

feat: implemented sigmoid function (ggml/806)

cd0c122

llama : add Command R Plus support (llama/6491)

8cf7097
unverified

sync : llama.cpp (skip)

88282d1
unverified

ggml : mul_mat_id use the same tensor for all the experts (llama/6387)

26fdc9f
unverified

sync : ggml (#2001)

cbbfa9e
unverified

Commit History

CUDA: add FP32 FlashAttention vector kernel (llama/7188) 03d4b22 unverified

ggml : remove oboslete alibi code (skipme) (#0) d25c1e3

ggml : full ALiBi support (llama/7192) 192bda4

CUDA: generalize FP16 fattn vec kernel (llama/7061) ca79691

Introduction of CUDA Graphs to LLama.cpp (llama/6766) 08fc76d

CUDA: CUDART < 11.7 workaround for __hmax, __hmax2 (llama/7019) 4cf786d

ggml : add Flash Attention (llama/5021) 34d3b03

Fix more int overflow during quant (PPL/CUDA). (llama/6563) 531387f

ggml : group all experts in a single ggml_mul_mat_id (llama/6505) f0b5c67

feat: implemented sigmoid function (ggml/806) cd0c122

llama : add Command R Plus support (llama/6491) 8cf7097 unverified

sync : llama.cpp (skip) 88282d1 unverified

ggml : mul_mat_id use the same tensor for all the experts (llama/6387) 26fdc9f unverified

sync : ggml (#2001) cbbfa9e unverified

CUDA: add FP32 FlashAttention vector kernel (llama/7188)

03d4b22
unverified

ggml : remove oboslete alibi code (skipme) (#0)

d25c1e3

ggml : full ALiBi support (llama/7192)

192bda4

CUDA: generalize FP16 fattn vec kernel (llama/7061)

ca79691

Introduction of CUDA Graphs to LLama.cpp (llama/6766)

08fc76d

CUDA: CUDART < 11.7 workaround for hmax, hmax2 (llama/7019)

4cf786d

ggml : add Flash Attention (llama/5021)

34d3b03

Fix more int overflow during quant (PPL/CUDA). (llama/6563)

531387f

ggml : group all experts in a single ggml_mul_mat_id (llama/6505)

f0b5c67

feat: implemented sigmoid function (ggml/806)

cd0c122

llama : add Command R Plus support (llama/6491)

8cf7097
unverified

sync : llama.cpp (skip)

88282d1
unverified

ggml : mul_mat_id use the same tensor for all the experts (llama/6387)

26fdc9f
unverified

sync : ggml (#2001)

cbbfa9e
unverified