modin-project · YarShev · May 14, 2024 · May 6, 2024 · May 8, 2024 · May 14, 2024
@@ -28,7 +28,7 @@
 from pandas.core.dtypes.common import is_dtype_equal, is_list_like, is_numeric_dtype
 from pandas.core.indexes.api import Index, RangeIndex
 
-from modin.config import CpuCount, Engine, IsRayCluster, MinPartitionSize, NPartitions
+from modin.config import Engine, IsRayCluster, MinPartitionSize, NPartitions
 from modin.core.dataframe.base.dataframe.dataframe import ModinDataframe
 from modin.core.dataframe.base.dataframe.utils import Axis, JoinType, is_trivial_index
 from modin.core.dataframe.pandas.dataframe.utils import (
@@ -2205,46 +2205,12 @@ def map(
  PandasDataframe
  A new dataframe.
  """
- if self.num_parts <= 1.5 * CpuCount.get():
- # block-wise map
- map_fn = (
- self._partition_mgr_cls.lazy_map_partitions
- if lazy
- else self._partition_mgr_cls.map_partitions
- )
- new_partitions = map_fn(self._partitions, func, func_args, func_kwargs)
- else:
- # axis-wise map
- # we choose an axis for a combination of partitions
- # whose size is closer to the number of CPUs
- if abs(self._partitions.shape[0] - CpuCount.get()) < abs(
- self._partitions.shape[1] - CpuCount.get()
- ):
- axis = 1
- else:
- axis = 0
-
- column_splits = CpuCount.get() // self._partitions.shape[1]
-
- if axis == 0 and column_splits > 1:
- # splitting by parts of columnar partitions
- new_partitions = (
- self._partition_mgr_cls.map_partitions_joined_by_column(
- self._partitions, column_splits, func, func_args, func_kwargs
- )
- )
- else:
- # splitting by full axis partitions
- new_partitions = self._partition_mgr_cls.map_axis_partitions(
- axis,
- self._partitions,
- lambda df: func(
- df,
- *(func_args if func_args is not None else ()),
- **(func_kwargs if func_kwargs is not None else {}),
- ),
- keep_partitioning=True,
- )
+ map_fn = (
+ self._partition_mgr_cls.lazy_map_partitions
+ if lazy
+ else self._partition_mgr_cls.map_partitions
+ )
+ new_partitions = map_fn(self._partitions, func, func_args, func_kwargs)
 
  if new_columns is not None and self.has_materialized_columns:
  assert len(new_columns) == len(

@@ -29,6 +29,7 @@
 
 from modin.config import (
  BenchmarkMode,
+ CpuCount,
  Engine,
  MinPartitionSize,
  NPartitions,
@@ -621,20 +622,53 @@ def map_partitions(
  NumPy array
  An array of partitions
  """
- preprocessed_map_func = cls.preprocess_func(map_func)
- return np.array(
- [
+ if np.prod(partitions.shape) <= 1.5 * CpuCount.get():
+ # block-wise map
+ preprocessed_map_func = cls.preprocess_func(map_func)
+ new_partitions = np.array(
  [
- part.apply(
- preprocessed_map_func,
- *func_args if func_args is not None else (),
- **func_kwargs if func_kwargs is not None else {},
- )
- for part in row_of_parts
+ [
+ part.apply(
+ preprocessed_map_func,
+ *func_args if func_args is not None else (),
+ **func_kwargs if func_kwargs is not None else {},
+ )
+ for part in row_of_parts
+ ]
+ for row_of_parts in partitions
  ]
- for row_of_parts in partitions
- ]
- )
+ )
+ else:
+ # axis-wise map
+ # we choose an axis for a combination of partitions
+ # whose size is closer to the number of CPUs
+ if abs(partitions.shape[0] - CpuCount.get()) < abs(
+ partitions.shape[1] - CpuCount.get()
+ ):
+ axis = 1
+ else:
+ axis = 0
+
+ column_splits = CpuCount.get() // partitions.shape[1]
+
+ if axis == 0 and column_splits > 1:
+ # splitting by parts of columnar partitions
+ new_partitions = cls.map_partitions_joined_by_column(
+ partitions, column_splits, map_func, func_args, func_kwargs
+ )
+ else:
+ # splitting by full axis partitions
+ new_partitions = cls.map_axis_partitions(
+ axis,
+ partitions,
+ lambda df: map_func(
+ df,
+ *(func_args if func_args is not None else ()),
+ **(func_kwargs if func_kwargs is not None else {}),
+ ),
+ keep_partitioning=True,
+ )
+ return new_partitions
 
  @classmethod
  @wait_computations_if_benchmark_mode

@@ -2657,14 +2657,15 @@ def test_map_approaches(partitioning_scheme, expected_map_approach):
  df = pandas.DataFrame(data)
 
  modin_df = construct_modin_df_by_scheme(df, partitioning_scheme(df))
+ partitions = modin_df._query_compiler._modin_frame._partitions
  partition_mgr_cls = modin_df._query_compiler._modin_frame._partition_mgr_cls
 
  with mock.patch.object(
  partition_mgr_cls,
  expected_map_approach,
  wraps=getattr(partition_mgr_cls, expected_map_approach),
  ) as expected_method:
- try_cast_to_pandas(modin_df.map(lambda x: x * 2))
+ partition_mgr_cls.map_partitions(partitions, lambda x: x * 2)
  expected_method.assert_called()