Spaces:

mdocekal
/

multi_label_precision_recall_accuracy_fscore

Runtime error

App Files Files Community

multi_label_precision_recall_accuracy_fscore / tests.py

mdocekal

zero cardinality values

3fcf30e about 1 year ago

raw

history blame contribute delete

12.1 kB

	from unittest import TestCase

	from multi_label_precision_recall_accuracy_fscore import MultiLabelPrecisionRecallAccuracyFscore


	class MultiLabelPrecisionRecallAccuracyFscoreTest(TestCase):
	"""
	All of these tests are also used for multiset configuration. So please mind this and write the test in a way that
	it is valid for both configurations (do not use same label multiple times).
	"""

	def setUp(self):
	self.multi_label_precision_recall_accuracy_fscore = MultiLabelPrecisionRecallAccuracyFscore()

	def test_eok(self):
	self.assertDictEqual(
	{
	"precision": 1.0,
	"recall": 1.0,
	"accuracy": 1.0,
	"fscore": 1.0
	},
	self.multi_label_precision_recall_accuracy_fscore.compute(
	predictions=[
	[0, 1],
	[1, 2],
	[0, 1, 2],
	],
	references=[
	[0, 1],
	[1, 2],
	[0, 1, 2],
	]
	)
	)

	def test_eok_string(self):
	self.assertDictEqual(
	{
	"precision": 1.0,
	"recall": 1.0,
	"accuracy": 1.0,
	"fscore": 1.0
	},
	self.multi_label_precision_recall_accuracy_fscore.compute(
	predictions=[
	["0", "1"],
	["1", "2"],
	["0", "1", "2"],
	],
	references=[
	["0", "1"],
	["1", "2"],
	["0", "1", "2"],
	]
	)
	)

	def test_empty(self):
	self.assertDictEqual(
	{
	"precision": 1.0,
	"recall": 1.0,
	"accuracy": 1.0,
	"fscore": 1.0
	},
	self.multi_label_precision_recall_accuracy_fscore.compute(
	predictions=[
	[],
	[],
	[],
	],
	references=[
	[],
	[],
	[],
	]
	)
	)

	def test_empty_reference(self):
	self.assertDictEqual(
	{
	"precision": 0.0,
	"recall": 0.0,
	"accuracy": 0.0,
	"fscore": 0.0
	},
	self.multi_label_precision_recall_accuracy_fscore.compute(
	predictions=[
	[0, 1],
	[1, 2],
	[0, 1, 2],
	],
	references=[
	[],
	[],
	[],
	]
	)
	)

	def test_empty_prediction(self):
	self.assertDictEqual(
	{
	"precision": 0.0,
	"recall": 0.0,
	"accuracy": 0.0,
	"fscore": 0.0
	},
	self.multi_label_precision_recall_accuracy_fscore.compute(
	predictions=[
	[],
	[],
	[],
	],
	references=[
	[0, 1],
	[1, 2],
	[0, 1, 2],
	]
	)
	)

	def test_completely_different(self):
	self.assertDictEqual(
	{
	"precision": 0.0,
	"recall": 0.0,
	"accuracy": 0.0,
	"fscore": 0.0
	},
	self.multi_label_precision_recall_accuracy_fscore.compute(
	predictions=[
	[0, 1],
	[1, 2],
	[0, 1, 2],
	],
	references=[
	[3, 4],
	[5, 6],
	[7, 8, 9],
	]
	)
	)

	def test_max_precision(self):
	self.assertDictEqual(
	{
	"precision": 1.0,
	"recall": 0.5,
	"accuracy": 0.5,
	"fscore": 2 / 3
	},
	self.multi_label_precision_recall_accuracy_fscore.compute(
	predictions=[
	[0, 1]
	],
	references=[
	[0, 1, 2, 3]
	]
	)
	)

	def test_max_recall(self):
	self.assertDictEqual(
	{
	"precision": 0.5,
	"recall": 1.0,
	"accuracy": 0.5,
	"fscore": 2 / 3
	},
	self.multi_label_precision_recall_accuracy_fscore.compute(
	predictions=[
	[0, 1, 2, 3]
	],
	references=[
	[0, 1]
	]
	)
	)

	def test_partial_match(self):
	self.assertDictEqual(
	{
	"precision": 0.5,
	"recall": 0.5,
	"accuracy": 1 / 3,
	"fscore": 0.5
	},
	self.multi_label_precision_recall_accuracy_fscore.compute(
	predictions=[
	[0, 1]
	],
	references=[
	[0, 2]
	]
	)
	)

	def test_partial_match_multi_sample(self):
	self.assertDictEqual(
	{
	"precision": 2.5 / 3,
	"recall": 2 / 3,
	"accuracy": 0.5,
	"fscore": 2 * (2.5 / 3 * 2 / 3) / (2.5 / 3 + 2 / 3)
	},
	self.multi_label_precision_recall_accuracy_fscore.compute(
	predictions=[
	[0, 1],
	[0, 1],
	[2, 3]
	],
	references=[
	[0, 1, 2, 3],
	[0, 1, 2, 3],
	[2]
	]
	)
	)

	def test_beta(self):
	self.multi_label_precision_recall_accuracy_fscore.beta = 2
	self.assertDictEqual(
	{
	"precision": 2.5 / 3,
	"recall": 2 / 3,
	"accuracy": 0.5,
	"fscore": 5 * (2.5 / 3 * 2 / 3) / (4 * 2.5 / 3 + 2 / 3)
	},
	self.multi_label_precision_recall_accuracy_fscore.compute(
	predictions=[
	[0, 1],
	[0, 1],
	[2, 3]
	],
	references=[
	[0, 1, 2, 3],
	[0, 1, 2, 3],
	[2]
	]
	)
	)
	self.assertDictEqual(
	{
	"precision": 2.5 / 3,
	"recall": 2 / 3,
	"accuracy": 0.5,
	"fscore": 10 * (2.5 / 3 * 2 / 3) / (9 * 2.5 / 3 + 2 / 3)
	},
	self.multi_label_precision_recall_accuracy_fscore.compute(
	predictions=[
	[0, 1],
	[0, 1],
	[2, 3]
	],
	references=[
	[0, 1, 2, 3],
	[0, 1, 2, 3],
	[2]
	],
	beta=3
	)
	)


	class MultiLabelPrecisionRecallAccuracyFscoreTestMultiset(MultiLabelPrecisionRecallAccuracyFscoreTest):
	def setUp(self):
	self.multi_label_precision_recall_accuracy_fscore = MultiLabelPrecisionRecallAccuracyFscore(
	config_name="multiset")

	def test_multiset_eok(self):
	self.assertDictEqual(
	{
	"precision": 1.0,
	"recall": 1.0,
	"accuracy": 1.0,
	"fscore": 1.0
	},
	self.multi_label_precision_recall_accuracy_fscore.compute(
	predictions=[
	[0, 1, 1],
	[1, 2, 2],
	[0, 1, 2, 1],
	],
	references=[
	[1, 0, 1],
	[1, 2, 2],
	[0, 1, 1, 2],
	]
	)
	)

	def test_multiset_partial_match(self):
	self.assertDictEqual(
	{
	"precision": 1.0,
	"recall": 0.5,
	"accuracy": 0.5,
	"fscore": 2 / 3
	},
	self.multi_label_precision_recall_accuracy_fscore.compute(
	predictions=[
	[0, 1, 1]
	],
	references=[
	[1, 0, 1, 1, 0, 0],
	]
	)
	)

	def test_multiset_partial_match_multi_sample(self):
	p = (1 + 2 / 3) / 2
	r = (3 / 4 + 1) / 2

	self.assertDictEqual(
	{
	"precision": p,
	"recall": r,
	"accuracy": (3 / 4 + 2 / 3) / 2,
	"fscore": 2 * p * r / (p + r)
	},
	self.multi_label_precision_recall_accuracy_fscore.compute(
	predictions=[
	[0, 1, 1],
	[1, 2, 2]
	],
	references=[
	[1, 0, 1, 1],
	[1, 2],
	]
	)
	)

	def test_zero_cardinality_precision(self):
	self.multi_label_precision_recall_accuracy_fscore.zero_cardinality_precision = 0.5
	self.assertEqual(0.5,
	self.multi_label_precision_recall_accuracy_fscore.compute(
	predictions=[
	[]
	],
	references=[
	[0, 1, 1],
	]
	)["precision"]
	)

	self.assertEqual(1.0,
	self.multi_label_precision_recall_accuracy_fscore.compute(
	predictions=[
	[]
	],
	references=[
	[],
	]
	)["precision"]
	)

	self.assertEqual(2 / 3,
	self.multi_label_precision_recall_accuracy_fscore.compute(
	predictions=[
	[1, 2, 3]
	],
	references=[
	[1, 2],
	]
	)["precision"]
	)

	def test_zero_cardinality_recall(self):
	self.multi_label_precision_recall_accuracy_fscore.zero_cardinality_recall = 0.5
	self.assertEqual(0.5,
	self.multi_label_precision_recall_accuracy_fscore.compute(
	predictions=[
	[0, 1, 1],
	],
	references=[
	[]
	]
	)["recall"]
	)

	self.assertEqual(1.0,
	self.multi_label_precision_recall_accuracy_fscore.compute(
	predictions=[
	[],
	],
	references=[
	[],
	]
	)["recall"]
	)

	self.assertEqual(2 / 3,
	self.multi_label_precision_recall_accuracy_fscore.compute(
	predictions=[
	[1, 2],
	],
	references=[
	[1, 2, 3]
	]
	)["recall"]
	)