Coverage metrics #38

jegorus · 2023-05-04T17:03:11Z

Item coverage and num retrieved

codecov · 2023-05-22T09:40:31Z

Codecov Report

Merging #38 (4d0f0d0) into main (eee3ba5) will not change coverage.
The diff coverage is 100.00%.

@@            Coverage Diff            @@
##              main       #38   +/-   ##
=========================================
  Coverage   100.00%   100.00%           
=========================================
  Files           44        45    +1     
  Lines         2209      2230   +21     
=========================================
+ Hits          2209      2230   +21

Impacted Files	Coverage Δ
rectools/metrics/__init__.py	`100.00% <100.00%> (ø)`
rectools/metrics/coverage.py	`100.00% <100.00%> (ø)`

feldlime · 2023-05-22T21:06:39Z

rectools/metrics/coverage.py

+ float
+ Value of metric.
+ """
+ reco_k_first_ranks = reco[reco[Columns.Rank] <= self.k]


As we need only the items column, let's take only it.

This will be more memory efficient and faster as well

items = reco.loc[reco[Columns.Rank] <= self.k, Columns.Item]

feldlime · 2023-05-22T21:07:06Z

rectools/metrics/coverage.py

+ Value of metric.
+ """
+ reco_k_first_ranks = reco[reco[Columns.Rank] <= self.k]
+ return len(reco_k_first_ranks[Columns.Item].unique()) / len(catalog)


There is nunique method, no need to use len

feldlime · 2023-05-22T21:12:38Z

rectools/metrics/coverage.py

+ reco_k_first_ranks = reco[reco[Columns.Rank] <= self.k]
+ return len(reco_k_first_ranks[Columns.Item].unique()) / len(catalog)
+
+ def calc_per_user(self, reco: pd.DataFrame, catalog: Catalog) -> pd.Series:


Maybe for this metric calc_per_user method is meaningless since recommendations for user are unique and coverage depends only on k that we set up here

feldlime · 2023-05-22T21:13:04Z

rectools/metrics/coverage.py

+ pd.Series
+ Values of metric (index - user id, values - metric value for every user).
+ """
+ reco_k_first_ranks = reco[reco[Columns.Rank] <= self.k]


feldlime · 2023-05-22T21:13:30Z

rectools/metrics/coverage.py

+ Values of metric (index - user id, values - metric value for every user).
+ """
+ reco_k_first_ranks = reco[reco[Columns.Rank] <= self.k]
+ return reco_k_first_ranks.groupby(Columns.User)[Columns.Item].count().rename(None)


It's better to store results of complex expressions to the separate variables

feldlime · 2023-09-25T19:12:39Z

rectools/metrics/coverage.py

+class NumRetrieved(MetricAtK):
+ """
+ Number of recommendations retrieved is a metric that shows
+ how much items were recommended to users by first k recommendations (less or equal k)


much -> many

jegorus and others added 4 commits May 4, 2023 18:18

adding coverage mvp after pull

d4ddd4d

adding tests for item coverage and num retrieved

77dbb7b

recommit for ci

3ffc09c

Merge branch 'main' into coverage_metrics

4d0f0d0

feldlime requested changes May 22, 2023

View reviewed changes

feldlime reviewed Sep 25, 2023

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Coverage metrics #38

Coverage metrics #38

jegorus commented May 4, 2023

codecov bot commented May 22, 2023 •

edited

feldlime May 22, 2023

feldlime May 22, 2023

feldlime May 22, 2023

feldlime May 22, 2023

feldlime May 22, 2023

feldlime Sep 25, 2023

Coverage metrics #38

Are you sure you want to change the base?

Coverage metrics #38

Conversation

jegorus commented May 4, 2023

codecov bot commented May 22, 2023 • edited

Codecov Report

feldlime May 22, 2023

Choose a reason for hiding this comment

feldlime May 22, 2023

Choose a reason for hiding this comment

feldlime May 22, 2023

Choose a reason for hiding this comment

feldlime May 22, 2023

Choose a reason for hiding this comment

feldlime May 22, 2023

Choose a reason for hiding this comment

feldlime Sep 25, 2023

Choose a reason for hiding this comment

codecov bot commented May 22, 2023 •

edited