Commits · natasa365/whisper.cpp

Allow multiple copy function pointers for CUDA graph kernel param updates (llama/7565)

143f6df

agray3 commited on May 27, 2024

Fix q_xxs using mul_mat_q (llama/7459)

0be4f48

AidanBeltonS commited on May 27, 2024

Add freq factors (llama/7495)

340b830

AidanBeltonS commited on May 27, 2024

metal : add GGML_OP_REPEAT kernels (llama/7557)

0534b5d

ggerganov commited on May 27, 2024

metal : disable FA kernel for HS=256 (llama/7556)

0c32e28

ggerganov commited on May 27, 2024

ggml : restore ggml_rope_xpos_inplace (ggml/0)

0641dee

ggerganov commited on May 26, 2024

ggml: aarch64: SVE kernels for q8_0_q8_0, q4_0_q8_0 vector dot (llama/7433)

51f504f

Masaya, Kato commited on May 25, 2024

ggml : silence UB sanitizer error during iq2_xxs quantization (llama/0)

9f41704

ggerganov commited on May 23, 2024

ggml : remove ggml_flash_attn and ggml_flash_ff (llama/7463)

4005bca

ggerganov commited on May 23, 2024

ggml : drop support for QK_K=64 (llama/7473)

8737d46

ggerganov commited on May 23, 2024

Update vulkan rope implementation to support frequency factors (llama/7475)

be0ec58

OccamRazor commited on May 23, 2024

CUDA: fix FA out-of-bounds reads (llama/7479)

b38d0f9

JohannesGaessler commited on May 22, 2024

CUDA: fix FA out-of-bounds writes (llama/7465)

2e26e3a

JohannesGaessler commited on May 22, 2024

cuda : fix compile warning (llama/7454)

58db6c8

ggerganov commited on May 22, 2024

CUDA: remove incorrect precision check (llama/7454)

eb4b5e0

JohannesGaessler commited on May 22, 2024

cuda : fix rope + add tests (llama/7452)

215ce5c

ggerganov commited on May 22, 2024

llama : add phi3 128K model support (llama/7225)

ef68527

liuwei-git

ggerganov commited on May 21, 2024

metal : handle F16 inf values, fix FA partial offload (llama/7434)

8d153a7

ggerganov commited on May 21, 2024

CUDA: fix unused warning in mmq.cu (llama/7442)

f16510d

JohannesGaessler commited on May 21, 2024

CUDA: deduplicate mmq code (llama/7397)

e7b20b1

JohannesGaessler commited on May 21, 2024

rpc : track allocated buffers (llama/7411)

925eb7a

rgerganov commited on May 20, 2024

Update SYCL upscale operation (llama/7321)

3984ba6

AidanBeltonS commited on May 20, 2024

ggml-opencl, llama: using reserve() if count already known (llama/7272)

8325ed5

germanaizek commited on May 20, 2024

ggml : add loongarch lsx and lasx support (llama/6454)

9794ea7

junchao-loongson Jinyang He commited on May 20, 2024

Add provisions for windows support for BF16 code including CMake provision for enabling AVX512_BF16 (llama/7258)

cf52931

Srihari-mcw commited on May 20, 2024

Vulkan Embedding Fix (llama/7360)

2bfeba3

OccamRazor commited on May 19, 2024

ggml : fix another case of quants nans (llama/7387)

645c367

slaren commited on May 19, 2024

ggml: implement quantized KV cache for FA (llama/7372)

aef1b4b

JohannesGaessler commited on May 19, 2024

cuda : clear error after buffer allocation failure (llama/7376)

b7f6691

slaren commited on May 19, 2024

Capture CUDA logging output (llama/7298)

3519475

fraxy-v slaren commited on May 18, 2024

android : use "ci-android" branch for CI (llama/7341)

ff9d573

ggerganov commited on May 18, 2024

CUDA: deduplicate FlashAttention code (llama/7352)

65ab3e8

JohannesGaessler commited on May 18, 2024

cuda : add half2 __shfl_xor() for ROCm 5.5 (llama/7263)

ad83dfd

Engininja2 commited on May 18, 2024

Update and fix Vulkan soft_max and argsort implementations (llama/7237)

a0218a3

OccamRazor commited on May 18, 2024

ggml : fix quants nans when all the group weights are very close to zero (llama/7313)

b57bcbc

slaren commited on May 18, 2024

CUDA: faster large batch FA without tensor cores (llama/7314)

a6d9f2d

JohannesGaessler commited on May 17, 2024

rpc : set SO_REUSEADDR for the server socket (llama/7320)

195fe29

rgerganov commited on May 17, 2024

ggml-quants, llama : removed excess checks (llama/7274)

142d95e

germanaizek commited on May 17, 2024

ggml : rewrite silu and softmax for cpu (llama/7154)

c78b872

Justine Tunney commited on May 17, 2024

rpc : add command line arg for specifying backend memory

b441739

rgerganov commited on May 15, 2024

Add support for properly optimized Windows ARM64 builds with LLVM and MSVC (llama/7191)

c917076

Max Krasnyansky

ggerganov commited on May 16, 2024

ggml : use dynamic thread scheduling for matrix multiplication (llama/6915)

6f8daf7

kunnis commited on May 15, 2024

Avoid unnecessarily disabling CUDA graphs (llama/7302)

4816f6a

agray3 commited on May 15, 2024

ggml : tag ggml_tensor::backend as deprecated (llama/7290)

1a5606e

slaren commited on May 15, 2024

Add missing " (llama/7303)

2c417da

AidanBeltonS commited on May 15, 2024

ggml : add `ggml_upscale_ext` (ggml/814)

04a5333

John Balis

ggerganov commited on May 15, 2024

scripts : update sync

9e35f6d
unverified

ggerganov commited on Jun 16, 2024

whisper : use ggml-cuda in mel calc, set appropriate device (#2236)

93af41a
unverified

stanimirovb commited on Jun 13, 2024

cuda : fix HIPBLAS build (#2234)

a8eb666
unverified

ggerganov commited on Jun 11, 2024

cuda : fix bounds check for src0 rows in MMVQ kernel (#2231)

4fdb9d2
unverified

ggerganov

JohannesGaessler commited on Jun 11, 2024

Commit History

Allow multiple copy function pointers for CUDA graph kernel param updates (llama/7565) 143f6df

Fix q_xxs using mul_mat_q (llama/7459) 0be4f48

Add freq factors (llama/7495) 340b830

metal : add GGML_OP_REPEAT kernels (llama/7557) 0534b5d

metal : disable FA kernel for HS=256 (llama/7556) 0c32e28

ggml : restore ggml_rope_xpos_inplace (ggml/0) 0641dee

ggml: aarch64: SVE kernels for q8_0_q8_0, q4_0_q8_0 vector dot (llama/7433) 51f504f

ggml : silence UB sanitizer error during iq2_xxs quantization (llama/0) 9f41704

ggml : remove ggml_flash_attn and ggml_flash_ff (llama/7463) 4005bca

ggml : drop support for QK_K=64 (llama/7473) 8737d46

Update vulkan rope implementation to support frequency factors (llama/7475) be0ec58

CUDA: fix FA out-of-bounds reads (llama/7479) b38d0f9

CUDA: fix FA out-of-bounds writes (llama/7465) 2e26e3a

cuda : fix compile warning (llama/7454) 58db6c8

CUDA: remove incorrect precision check (llama/7454) eb4b5e0

cuda : fix rope + add tests (llama/7452) 215ce5c

llama : add phi3 128K model support (llama/7225) ef68527

metal : handle F16 inf values, fix FA partial offload (llama/7434) 8d153a7

CUDA: fix unused warning in mmq.cu (llama/7442) f16510d

CUDA: deduplicate mmq code (llama/7397) e7b20b1

rpc : track allocated buffers (llama/7411) 925eb7a

Update SYCL upscale operation (llama/7321) 3984ba6

ggml-opencl, llama: using reserve() if count already known (llama/7272) 8325ed5

ggml : add loongarch lsx and lasx support (llama/6454) 9794ea7

Add provisions for windows support for BF16 code including CMake provision for enabling AVX512_BF16 (llama/7258) cf52931

Vulkan Embedding Fix (llama/7360) 2bfeba3

ggml : fix another case of quants nans (llama/7387) 645c367

ggml: implement quantized KV cache for FA (llama/7372) aef1b4b

cuda : clear error after buffer allocation failure (llama/7376) b7f6691

Capture CUDA logging output (llama/7298) 3519475

android : use "ci-android" branch for CI (llama/7341) ff9d573

CUDA: deduplicate FlashAttention code (llama/7352) 65ab3e8

cuda : add half2 __shfl_xor() for ROCm 5.5 (llama/7263) ad83dfd

Update and fix Vulkan soft_max and argsort implementations (llama/7237) a0218a3

ggml : fix quants nans when all the group weights are very close to zero (llama/7313) b57bcbc

CUDA: faster large batch FA without tensor cores (llama/7314) a6d9f2d

rpc : set SO_REUSEADDR for the server socket (llama/7320) 195fe29

ggml-quants, llama : removed excess checks (llama/7274) 142d95e

ggml : rewrite silu and softmax for cpu (llama/7154) c78b872

rpc : add command line arg for specifying backend memory b441739

Add support for properly optimized Windows ARM64 builds with LLVM and MSVC (llama/7191) c917076

ggml : use dynamic thread scheduling for matrix multiplication (llama/6915) 6f8daf7

Avoid unnecessarily disabling CUDA graphs (llama/7302) 4816f6a

ggml : tag ggml_tensor::backend as deprecated (llama/7290) 1a5606e

Add missing " (llama/7303) 2c417da

ggml : add `ggml_upscale_ext` (ggml/814) 04a5333

scripts : update sync 9e35f6d unverified

whisper : use ggml-cuda in mel calc, set appropriate device (#2236) 93af41a unverified

cuda : fix HIPBLAS build (#2234) a8eb666 unverified

cuda : fix bounds check for src0 rows in MMVQ kernel (#2231) 4fdb9d2 unverified

Allow multiple copy function pointers for CUDA graph kernel param updates (llama/7565)

143f6df

Fix q_xxs using mul_mat_q (llama/7459)

0be4f48

Add freq factors (llama/7495)

340b830

metal : add GGML_OP_REPEAT kernels (llama/7557)

0534b5d

metal : disable FA kernel for HS=256 (llama/7556)

0c32e28

ggml : restore ggml_rope_xpos_inplace (ggml/0)

0641dee

ggml: aarch64: SVE kernels for q8_0_q8_0, q4_0_q8_0 vector dot (llama/7433)

51f504f

ggml : silence UB sanitizer error during iq2_xxs quantization (llama/0)

9f41704

ggml : remove ggml_flash_attn and ggml_flash_ff (llama/7463)

4005bca

ggml : drop support for QK_K=64 (llama/7473)

8737d46

Update vulkan rope implementation to support frequency factors (llama/7475)

be0ec58

CUDA: fix FA out-of-bounds reads (llama/7479)

b38d0f9

CUDA: fix FA out-of-bounds writes (llama/7465)

2e26e3a

cuda : fix compile warning (llama/7454)

58db6c8

CUDA: remove incorrect precision check (llama/7454)

eb4b5e0

cuda : fix rope + add tests (llama/7452)

215ce5c

llama : add phi3 128K model support (llama/7225)

ef68527

metal : handle F16 inf values, fix FA partial offload (llama/7434)

8d153a7

CUDA: fix unused warning in mmq.cu (llama/7442)

f16510d

CUDA: deduplicate mmq code (llama/7397)

e7b20b1

rpc : track allocated buffers (llama/7411)

925eb7a

Update SYCL upscale operation (llama/7321)

3984ba6

ggml-opencl, llama: using reserve() if count already known (llama/7272)

8325ed5

ggml : add loongarch lsx and lasx support (llama/6454)

9794ea7

Add provisions for windows support for BF16 code including CMake provision for enabling AVX512_BF16 (llama/7258)

cf52931

Vulkan Embedding Fix (llama/7360)

2bfeba3

ggml : fix another case of quants nans (llama/7387)

645c367

ggml: implement quantized KV cache for FA (llama/7372)

aef1b4b

cuda : clear error after buffer allocation failure (llama/7376)

b7f6691

Capture CUDA logging output (llama/7298)

3519475

android : use "ci-android" branch for CI (llama/7341)

ff9d573

CUDA: deduplicate FlashAttention code (llama/7352)

65ab3e8

cuda : add half2 __shfl_xor() for ROCm 5.5 (llama/7263)

ad83dfd

Update and fix Vulkan soft_max and argsort implementations (llama/7237)

a0218a3

ggml : fix quants nans when all the group weights are very close to zero (llama/7313)

b57bcbc

CUDA: faster large batch FA without tensor cores (llama/7314)

a6d9f2d

rpc : set SO_REUSEADDR for the server socket (llama/7320)

195fe29

ggml-quants, llama : removed excess checks (llama/7274)

142d95e

ggml : rewrite silu and softmax for cpu (llama/7154)

c78b872

rpc : add command line arg for specifying backend memory

b441739

Add support for properly optimized Windows ARM64 builds with LLVM and MSVC (llama/7191)

c917076

ggml : use dynamic thread scheduling for matrix multiplication (llama/6915)

6f8daf7

Avoid unnecessarily disabling CUDA graphs (llama/7302)

4816f6a

ggml : tag ggml_tensor::backend as deprecated (llama/7290)

1a5606e

Add missing " (llama/7303)

2c417da

ggml : add `ggml_upscale_ext` (ggml/814)

04a5333

scripts : update sync

9e35f6d
unverified

whisper : use ggml-cuda in mel calc, set appropriate device (#2236)

93af41a
unverified

cuda : fix HIPBLAS build (#2234)

a8eb666
unverified

cuda : fix bounds check for src0 rows in MMVQ kernel (#2231)

4fdb9d2
unverified